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Zusammenfassung 


Sprachgesteuerte Computersysteme werden heutzutage von Millionen von Nutzern verwendet; 
Chatbots, virtuelle Assistenten, wie Siri oder Google Assistant, und Smarthomes sind längst fester 
Bestandteil des Alltags vieler Menschen. Zwar erscheinen derartige Systeme inzwischen intelligent; 
tatsächlich reagieren sie aber nur auf einzelne Befehle, die zudem bestimmte Formulierungen 
erfordern. Die Nutzer sind außerdem auf vorgefertigte Funktionalitäten beschränkt; neue Befehle 
können nur von Entwicklern einprogrammiert und vom Hersteller zur Verfügung gestellt werden. In 
Zukunft werden Nutzer erwarten, intelligente Systeme nach ihren Bedürfnissen anzupassen, das 


heißt programmieren zu können. 


Das in dieser Arbeit beschriebene System Pro, ermöglicht Endnutzer-Programmierung mit 
gesprochener Sprache. Es befähigt Laien dazu, einfache Programme für unterschiedliche Zielsysteme 
zu beschreiben und deren Funktionalität zu erweitern. Prof, basiert auf PARSE, einer eigens 
entworfenen agentenbasierten Architektur für tiefes Sprachverständnis. Das System ermöglicht 
die Verwendung alltäglicher Sprache zur Beschreibung von Handlungsanweisungen. Diese werden 
von Proj,’ als Programm für ein Zielsystem interpretiert, das eine Anwendungsschnittstelle 
zur Endnutzer-Programmierung anbietet. Bisherige Ansätze zur Programmierung mit natürlicher 
Sprache ermöglichen nur die Erzeugung kurzer Programme anhand fextueller Beschreibungen. Da 
die meisten Systeme monolithisch entworfen wurden, können sie zudem nur mit großem Aufwand 
adaptiert werden und sind überwiegend auf die Anwendung einer Technik (z. B. maschinelles 
Lernen) sowie auf eine Anwendungsdomdne festgelegt (z. B. Tabellenkalkulation). Ansätze, die 
gesprochene Sprache verarbeiten, können hingegen bisher nur einzelne Befehle erfassen. 


Um die Restriktionen bisheriger Ansätze aufzuheben, wird eine neuartige Architektur entworfen. Die 
Kernkomponenten der Architektur PARSE bilden unabhängige Agenten, die je einen bestimmten 
Aspekt der natürlichen Sprache analysieren. Die Kapselung in unabhängige Agenten ermöglicht 
es, je Teilaspekt zum Verständnis der Sprache eine andere Technik zu verwenden. Die Agenten 
werden nebenläufig ausgeführt. Dadurch können sie von Analyseergebnissen anderer Agenten 
profitieren; unterschiedliche Sprachanalysen können sich so gegenseitig unterstützen. Beispielsweise 
hilft es, sprachliche Referenzen wie Anaphern aufzulösen, um den Kontext des Gesagten zu 
verstehen; manche Referenzen können wiederum nur mithilfe des Kontextes aufgelöst werden. 
Ihr Analyseergebnisse hinterlegen die Agenten in einer geteilten Datenstruktur, einem Graphen. 
Die Architektur stellt sicher, dass keine Wettlaufsituationen eintreten und nur gültige Änderungen 
am Graphen durchgeführt werden. Die Agenten werden so lange wiederholt ausgeführt, bis keine 
oder nur noch zyklische Änderungen eintreten. Neben den Agenten gibt PARSE die Verwendung 
von Fließbändern zur Vor- und Nachverarbeitung vor. Zudem können externe Ressourcen, wie 


Wissensdatenbanken oder Kontextmodellierungen, angeschlossen werden. 


Zusammenfassung 


Das System Pro, entsteht, indem konkrete Agenten und Fließbandstufen für die Rahmenarchitek- 
tur PARSE bereitgestellt werden. Zusätzlich werden Informationen über die Anwendungsdomäne 
(das heißt die Anwendungsschnittstelle des Zielsystems und gegebenenfalls eine Modellierung der 
Systemumgebung) in Form von Ontologien als externe Ressource angebunden. Eine gesprochene 
Äußerung wird von Pro, vorverarbeitet, indem zunächst das Audiosignal in eine textuelle Wort- 
sequenz überführt wird. Anschließend erfolgt eine grundlegende syntaktische Analyse, bevor ein 
initialer Graph als Analysegrundlage für die Agenten erzeugt wird. Die Interpretation des Gesagten 
als Programm obliegt den Agenten. Es wurden sechzehn Agenten entwickelt, die sich in drei Katego- 
rien unterteilen lassen: Erstens, Agenten, die allgemeine Sprachverständnis-Analysen durchführen, 
wie die Disambiguierung von Wortbedeutungen, die Auflösung von sprachlichen Referenzen oder 
die Erkennung von Gesprächsthemen. Zweitens, Agenten, die das Gesagte auf programmatische 
Strukturen, wie Anwendungsschnittstellenaufrufe oder Kontrollstrukturen, untersuchen; hierzu zählt 
auch ein Agent, der aus verbalisierten Lehrsequenzen Methodendefinitionen synthetisiert. Zusätzlich 
wurden funktionale Agenten entwickelt, wie beispielsweise ein Dialog-Agent, der dem Nutzer 
gezielt Rückfragen stellt. Da die Agenten unabhängig voneinander agieren, kann zur Lösung der 
jeweiligen Problemstellung eine beliebige Technik eingesetzt werden. Die Agenten zur Erkennung 
von Kontrollstrukturen verwenden beispielsweise Heuristiken, die auf syntaktischen Strukturen 
basieren, um ihre Analysen durchzuführen. Andere Agenten, wie die Agenten zur Disambiguie- 
rung von Wortbedeutungen oder zur Bestimmung der Gesprächsthemen, verwenden Wikipedia, 
Wordnet oder ähnliche Quellen und inferieren anhand dieser Informationen. Zuletzt verwenden 
einige Agenten, wie beispielsweise der Agent zur Erkennung von Lehrsequenzen, maschinelles 
Lernen. Die Interpretation einer gesprochenen Äußerung erfolgt dementsprechend mittels einer 
Kombination von sowohl regel- als auch statistik- und wissensbasierten Techniken. Dank der strikten 
Trennung der Agenten können diese einzeln (und zumeist unabhängig voneinander) evaluiert werden. 
Hierzu wurden parallel zur Entwicklung der Agenten fortwährend mithilfe von Nutzerstudien 
realistische Eingabebeispiele gesammelt. Für jeden Agenten kann somit überprüft werden, ob er 
einen zufriedenstellenden Beitrag zur Interpretation des Gesagten beiträgt. Das gemeinschaftliche 
Analyseergebnis der Agenten wird in der Nachverarbeitung sukzessive in ein konkretes Programm 
übersetzt: Zunächst wird ein abstrakter Syntaxbaum generiert, der anschließend in Quelltext zur 


Steuerung eines Zielsystems überführt wird. 


Die Fähigkeit des Systems Pro/,, aus gesprochenen Äußerungen Quelltext zu generieren, wurde 
anhand von drei unabhängigen Untersuchungen evaluiert. Als Datengrundlage dienen alle in den 
Nutzerstudien gesammelten natürlichsprachlichen Beschreibungen. Zunächst wurden für eine Online- 
Studie UML-Aktivitätsdiagramme aus gesprochenen Äußerungen generiert und 120 Probanden 
zur Bewertung vorgelegt: Der überwiegende Teil der Aktivitätsdiagramme (69%) wurde von der 
Mehrheit der Probanden als vollständig korrekt eingestuft, ein vielversprechendes Ergebnis, da 
die gesprochenen Äußerungen die Synthese von bis zu 24 Anweisungen (bzw. Aktivitäten) sowie 
Kontrollstrukturen erfordern. In einer zweiten Untersuchung wurde Java-Quelltext, bestehend aus 
Aufrufen einer Anwendungsschnittstelle zur Steuerung eines humanoiden Roboters, synthetisiert 
und mit einer Musterlösung verglichen: Prof, konnte Aufrufe meist korrekt erzeugen (F1: 0,746); 
auch die Synthese von Kontrollstrukturen gelingt in 71% der Fälle korrekt. Zuletzt wurde untersucht, 
wie gut Prof% anhand von natürlichsprachlichen Beschreibungen neue Funktionen erlernen kann: 


II 


Zusammenfassung 


Verbalisierte Lehrsequenzen werden mit einer Genauigkeit von 85% in Äußerungen erkannt. Aus 
diesen leitet Prof, Methodendefinitionen ab; dabei gelingt es in über 90% der Fälle, einen 
sprechenden Methodennamen zu erzeugen. Auch der Aufruf der neu erlernten Funktion (durch 
natürlichsprachliche Anweisungen) gelingt mit einer Genauigkeit von 85%. Zusammengenommen 
zeigen die Untersuchungen, dass Prog% grundsätzlich in der Lage ist, Programme aus gesprochenen 
Äußerungen zu synthetisieren; außerdem können neue Funktionen anhand natürlichsprachlicher 
Beschreibungen erlernt werden. 
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Tasks von XKCD, Autor Randall Munroe: https: //xkcd.com/1425/, lizenziert unter einer Creative Commons 


Namensnennung - Lizenz: Namensnennung-Nicht kommerziell 2.5 Generic (CC BY-NC 2.5) 


https: //creativecommons.org/licenses/by-nc/2.5/deed.de 


Vorwort 


In der Informatik haben selbst Experten häufig Schwierigkeiten, einzuschätzen (bzw. zu begründen), 
welche Aufgaben einfach gelöst werden können und welche nahezu unmöglich sind. Ähnliche 
Situationen, wie im Comic auf der vorangegangen Seite gezeigt, ereignen sich tagtäglich. Daher 
ist es auch nicht verwunderlich, dass der Comic auf einer wahren Begebenheit beruht. 1966 gab 
Marvin Minsky - einer der Wegbereiter des Forschungsgebiets der künstlichen Intelligenz — einigen 
seiner Studenten am MIT als Aufgabe über den Sommer, einen Algorithmus zu entwickeln, der es 
ermöglicht, Objekte in einem Bild zu erkennen und zu benennen!| Er ahnte damals nicht, dass er 
seine Studenten damit vor eine Aufgabe stellen würde, die bis heute noch nicht zur Gänze gelöst ist. 


Ähnlich wie mit der Objekterkennung in Bildern verhält es sich mit der Analyse und dem 
Verständnis natürlicher Sprache durch Computersysteme. Auch diese Aufgabe erscheint intuitiv 
einfach lösbar, schließlich ist es für Menschen ein Leichtes, natürlichsprachliche Äußerungen 
zu interpretieren. Bei der Bewertung der Schwierigkeit einer Aufgabenstellung wird allerdings 
mitunter völlig außer Acht gelassen, dass das menschliche Gehirn grundlegend anders arbeitet als 
ein Computersystem — daran hat (bisher) auch die Entwicklung immer leistungsfähigerer künstlicher 
neuronaler Netze nichts geändert. Wer sich jedoch jemals eingehend mit der Computerlinguistik 
befasst hat, fühlt sich schnell wie Alice aus Lewis Carrols Buch Alice im Wunderland, die sich 
immer tiefer im Kaninchenbau verliert. Unumgänglich wird einem offenbar, dass eine umfassende 
und allgemeingültige Interpretation natürlicher Sprache nahezu unmöglich, gerade deshalb aber 
als Forschungsgegenstand besonders reizvoll ist. Schickt man sich darüber hinaus an, natürliche 
Sprache nicht nur interpretieren, sondern aus dieser Interpretation auch noch Programmaquelltext 
synthetisieren zu wollen?| erhält man für gewöhnlich zweierlei Rückmeldungen. Zum einen gibt es 
solche, die dies aufgrund der eingangs thematisierten Intuition für natürliche Sprache als einfach 
erachten: „Ja klar, ist doch keine große Sache!“ Zum anderen sind da die, die aufgrund von Wissen 
um die Komplexität natürlicher Sprache, diese Ziel für unerreichbar halten: „Programme aus 
natürlichsprachlichen Beschreibungen erstellen? Unmöglich!“ Abseits dieser beiden Extreme bleibt 
viel ungefüllter Raum (der einen Nachwuchsforscher leicht zum Zweifeln bringen kann). 


Umso wichtiger ist es, dass es Menschen gibt, die einen unterstützen, (heraus-)fordern, fördern und 
an die eigene Forschungsidee glauben. Ich schätze mich glücklich, dass mich eine Vielzahl solcher 
Menschen durch meine Promotion begleitet haben — ohne dieses Umfeld hätte ich alles, was mir 


siehe hierzu: https://www.explainxkcd.com/wiki/index.php/1425: _Tasks, zuletzt besucht am 
21.06.2021. 

Die Programmierung und Steuerung von Computersystemen mit natürlicher Sprache wurde ebenfalls (möglicherweise 
nicht ganz) zufälligerweise 1966 das erste Mal konkret als Zielstellung formuliert. Wie die Objekterkennung ist auch 
diese Aufgabe bisher ungelöst. 


Vil 


Vorwort 


in den sieben (!) Jahren abverlangt wurde, wohl kaum bewältigen können. An erster Stelle ist hier 
natürlich Walter zu nennen. Er gab mir nicht nur die Chance, an seinem Lehrstuhl zu promovieren, 
sondern ließ mir inhaltlich freie Hand, sowohl bei der Themenfindung, als auch bei der Festlegung 
des Lösungswegs. Diese Freiheit, die ich sehr zu schätzen weiß, bedeutete aber nicht, dass ich 
ohne doktorväterliche Führung hätte auskommen müssen: Walters Tür stand mir jeder Zeit offen; 
er half mir bei so mancher kniffligen Frage und streute immer wieder neue Ideen ein, wenn es 
galt, eine inhaltliche Lücke zu schließen. Vor allem aber ist er mir über all die Jahre ein Vorbild 
hinsichtlich einer (wirklich) wissenschaftlichen Arbeitsweise gewesen. Einen wesentlichen Anteil 
am Erfolg meiner Promotion hat natürlich auch der gesamte restliche Lehrstuhl, der für mich immer 
das perfekte und unkomplizierte Arbeitsumfeld war. Angefangen bei Hildegard, die als gute Seele 
des Lehrstuhls im Sekretariat immer ein offenes Ohr (oder auch zwei) für uns Mitarbeiter hatte, über 
die Systemadministratoren (zunächst) Heinz und (später) Andrea, die nicht nur technische Probleme 
immer ohne viel Aufhebens lösen konnten, sondern auch immer als sachkundige Ansprechpartner 
mit Rat und Tat zur Verfügung standen, bis hin zu den Mit-Promovierenden des Lehrstuhls (bzw. 


Leidensgenossen). 


Ja, die lieben Kollegen: Ein zusammengewürfelter Haufen von (mehr oder minder) jungen Menschen, 
die für die Forschung brennen, die Welt verbessern wollen oder einfach nur nach einem Stück 
Selbstverwirklichung suchen. Dankbar bin ich Ihnen für all die Diskussionen, die unabhängig davon, 
ob man sich gerade mit einer echten Forschungsfrage oder der korrekten Rezeptur von Kartoffelsalat 
auseinandersetzt, immer mit Tiefgang geführt wurden und dadurch immer bereichernd waren. Trotz 
inhaltlich teils völlig konträrer Ausrichtung wurde versucht, sich in das Forschungsthema des 
jeweils anderen einzudenken, kritisch zu hinterfragen aber auch neue Ideen und Lösungsansätze zu 
entwickeln. Fast noch wichtiger waren aber all die Kleinen und großen gemeinsamen Auszeiten — 
nie vergessen werde ich die Kaffee-Runden im legendären Competence Center. Viele (für meine 
Promotion) entscheidende Ideen haben sich während solcher Auszeiten und dem gemeinsamen 
Blödeln mit den Kollegen entwickelt. Drei der Kollegen, die sich auch nie für eine Blödelei zu 
schade waren, möchte ich besonders danken: Mathias, der als erster an mich und meine Fähigkeiten 
geglaubt hat (und letztlich auch hauptverantwortlich dafür war, dass ich mich dazu entschieden 
habe zu promovieren) und mit dem ich wunderbar produktiv arbeiten aber auch über alles mögliche 
andere reden konnte. Martin, mit dem ich gemeinsam einige Lehrveranstaltungen abhalten durfte 
und mit dem es einfach immer lustig war — auch wenn es die eine oder andere hitzige Diskussion 
gab. Und Tobias, der erst als Student eine herausragende Abschlussarbeit ablieferte und später als 
mein langjähriger Büro-Gegenüber nicht nur im Diskussions-Ping-Pong glänzte, sondern auch als 
kongenialer Koautor an (bisher) zwölf gemeinsamen Veröffentlichungen beteiligt war. 


Außer von Walter und meinen Kollegen habe ich auch jede Menge durch die vielfältigen Aufgaben 
gelernt, die an einem Lehrstuhl anfallen. Vieles davon hätte ich mir vorher nie träumen lassen (und 
wahrscheinlich auch nicht zugetraut), wie beispielsweise die Administration einer Lernplattform 
oder eines DevOps-Systems. Besondere Freude hat mir über all die Jahre aber vor allem die 
Lehre bereitet; die Weitergabe von Wissen an die nächste Generation ist ein tolles Erlebnis, 
insbesondere, wenn man das Gefühl hat, dass ab und an auch eine Aufnahme stattfindet. Egal ob die 
Zweitsemester-Großveranstaltung mit teilweise über 700 Studenten, eine Vertiefungsfachvorlesung 
mit Master-Studenten kurz vor dem Abschluss oder das (von Martin und mir ins Leben gerufene) 


VII 


Vorwort 


Praktikum zur Programmierung mit natürlicher Sprache, alles hatte seine Herausforderungen aber 
auch besondere Reize. Die schönsten Erfahrungen im Kontext der Lehre habe ich allerdings bei der 
Betreuung von (in Summe 26) Abschlussarbeiten gesammelt, die ja für sich gesehen auch kleine 
Forschungsprojekte sind. Diskussionen über Herausforderungen einer Forschungsfrage oder das 
gemeinsame Entwickeln von Lösungsstrategien am Whiteboard war mit den meisten Studenten eine 
wirkliche Freude und hat mir nicht zuletzt selbst die eine oder andere neue Idee beschert. Außerdem 
ist es ungemein spannend, die persönliche Entwicklung der Studenten über eine oder manchmal sogar 
zwei Abschlussarbeiten hinweg zu beobachten, beginnend mit dem wachsenden Interesse für ein 
Thema über die Entwicklung eigener Ideen durch immer tieferes Verständnis des Forschungsgebiets 
bis hin zum „Durchbeißen“, um die Arbeit rechtzeitig abzuschließen. Dabei war es mir vergönnt 
einige sehr talentierte junge Menschen kennen lernen zu dürfen, unter anderem Tobias und Jan, die 
später beide zu Kollegen wurden oder Vanessa, die nicht nur zwei herausragende Abschlussarbeiten 
abgeliefert hat, sondern zudem als Studentin Koautorin von sieben Veröffentlichungen wurde 
(darunter eine bei der Hauptkonferenz der Computerlinguistik und eine weitere, die mit einem 
„Best Paper Award“ ausgezeichnet wurde). Aber auch alle hier nicht genannten haben beinahe 
ausnahmslose gute Arbeit geleistet und auf die eine oder andere Weise einen Beitrag zu meiner 
Promotion geliefert. 


Aber um der Wahrheit genüge zu tun, bedeutet eine Promotion neben all diesen schönen Erfahrungen 
vor allem eines: viel Stress! Der Spagat zwischen eigener Forschungs- und Lehrtätigkeit erfordert die 
richtige Balance, damit nicht eines der beiden plötzlich das Übergewicht bekommt. Hinzu kommt 
die Eigenorganisation und -motivation, um beispielsweise während eines arbeitsaufwendigen Som- 
mersemesters als Übungsleiter einer Großveranstaltung nebenher auch noch Abschlussarbeiten zu 
betreuen, Forschungsergebnisse zu publizieren, die nächsten Projekte vorzubereiten, organisatorische 
und administrative Aufgaben zu erledigen und die Promotion voranzutreiben. 


Damit das Leben am Ende nicht nur noch aus Arbeit besteht (was tatsächlich nicht nur unbefriedigend 
ist, sondern letztlich auch irgendwann unproduktiv wird), braucht es ausgleichende Elemente, die 
außerhalb des Universitätsumfelds angesiedelt sind. Solche „Elemente“ sind unter anderem Freunde 
und Bekannte (die ich in letzter Zeit sträflich vernachlässigt habe); entspannte Runden in netter 
Gesellschaft sind das beste Mittel, um den Kopf frei zu bekommen. Außerdem wird man daran 
erinnert, dass es noch eine Welt außerhalb der eigenen Informatik-Blase gibt. Sehr viel verdanke 
ich aber vor allem meiner Familie, insbesondere meinen Eltern, meiner Schwester und meinen 
Großeltern. Sie haben mich letztlich zu dem Menschen geformt, der ich heute bin. Doch nicht 
nur damit haben sie zu meiner Promotion beigetragen, sondern auch durch Unterstützung und 
Zuspruch über viele Jahre hinweg (vor allem auch in schwierigen Zeiten während des Studiums). 
Zuletzt möchte ich ganz besonders Anna-Lena danken. Sie hat mich während meiner gesamten 
Promotionszeit nach Leibeskräften unterstützt und hat selbst auf vieles verzichten müssen und häufig 
zurückgesteckt. Anna-Lena hat mir nicht nur den Rücken freigehalten und viel Alltagsstress von mir 
ferngehalten, sondern mit Fachkenntnis (und einem gewissen Hang zum Perfektionismus) auch das 
Lektorat der Dissertation übernommen. Bildlich gesprochen, war sie bei gutem (Forschungs-)Wetter 
der Wind in den Segeln (meines „Promotions-Schiffs“) und der sichere Hafen, wenn ein Sturm 
aufzog; vor allem aber war sie meine Sonne während der wenigen gemeinsamen Freizeit. 
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Vorwort 


Die Promotion war eine lange, beschwerliche Reise — aber ich bin froh, dass ich sie angetreten 
habe, denn ich habe viel erlebt und noch mehr gelernt. Ich danke allen, die mich auf dieser Reise 
begleitet haben. Genauer betrachtet geht die Reise aber noch weiter, denn es gibt noch einiges 
zu tun bis Computersysteme Sprache so wie ein Mensch verstehen können und ich hoffe, auch 
zukünftig einen Beitrag zum Erreichen dieses Ziels leisten zu können. Eigentlich brauche ich nur 
ein Forschungsteam und fünf Jahre Zeit. Eigentlich. 
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1 Programmierung mit 
gesprochener Sprache 
— Eine Notwendigkeit 


„Ihere are only two kinds of [programming] languages: 


the ones people complain about and the ones nobody uses.“ 


— Bjarne Stroustrup 


Computersysteme haben sich zu omnipräsenten Begleitern im Alltag vieler Menschen entwickelt. 
Egal ob Laptop, Smartphone, Heimautomation oder das Navigationssystem im Auto — Menschen 
nutzen persönliche Computersysteme heutzutage nahezu unentwegt. Allerdings liegt der Fokus für 
den Großteil tatsächlich auf der Nutzung vorhandener Funktionalität. Der wirkliche Mehrwert von 
Computersystemen besteht aber darin, diese programmieren zu können. Erst durch die Programmie- 
rung werden Computersysteme zu Werkzeugen zur Lösung persönlicher Aufgaben. Diese Art der 
Verwendung bleibt jedoch denjenigen vorbehalten, die die Programmierung mit einer der zahlreichen 
Programmiersprachen beherrschen. Über fundierte Programmierkenntnisse verfügt allerdings nur 
ein geringer Anteil der Menschheit. Auch wenn die Programmierung immer stärker in den Fokus 
schulischer Ausbildung rückt, steht auch in Zukunft zu erwarten, dass nur wenige Menschen die 
Programmierung von Computersystemen tatsächlich beherrschen. Für viele Menschen stellt schlicht 
das Erlernen einer formalen Sprache eine unüberwindbare Hürde dar. Daher gilt es Mittel und Wege 
zu finden, auch Laien zu befähigen, zumindest einfache Programme erstellen zu können. 


Eine Lösung für diese Problematik besteht darin, Laien die Möglichkeit zu bieten, alltägliche 
Sprache zur Programmierung verwenden zu können. Für Menschen gibt es keine natürlichere Art 
zu kommunizieren als mittels natürlicher Sprache. Menschen sind es von Kindesbeinen an gewohnt, 
anhand natürlichsprachlicher Beschreibungen zu lernen. Auch eigene Ideen zu verbalisieren und 
damit auf andere zu übertragen, gelingt Menschen in Alltagssprache intuitiv. Dem Gegenüber eine 
Wegbeschreibung geben oder erklären, wie man einen Autoreifen wechselt, sind letztlich auch so 
etwas wie kleine natürlichsprachliche Programmierungen. Für Menschen wäre die Programmierung 
mit gesprochener Sprache dementsprechend nichts Neues; vielmehr sollte sie sich für die meisten ganz 
natürlich anfühlen. Das Ziel dieser Arbeit ist es, ein System zu entwickeln, dass die Programmierung 
von Computersystem durch Laien mit gesprochener Sprache ermöglicht. Um dieses Ziel zu erreichen, 
muss das System in der Lage sein, alltägliche Sprache tiefgehend zu verstehen, sodass gesprochene 
Äußerungen als Programm interpretiert werden können. 


1 Programmierung mit gesprochener Sprache — Eine Notwendigkeit 


1.1 Bestandsaufnahme 


Natürliche Sprache scheint die offensichtliche Lösung zu sein, um Laien zur Programmierung zu 
befähigen, und es stellt sich die Frage, ob es sich hierbei um eine neue Idee handelt. Tatsächlich ist 
das Gegenteil der Fall. Die Frage, ob es möglich ist, mit natürlicher Sprache zu programmieren, 
wird seit den Anfängen der Informatik diskutiert. Bereits 1966 proklamierte Jean Sammet, eine 


Pionierin der Informatik, folgendes |Sam66]: 


„Ihe only way a person can truly concentrate on his problem and solve it [...] are if 


he is able to communicate directly with the computer without having to learn some 
1 


specialized intermediate language.‘ 


Seit dieser Zeit wurden zwar verschiedene vielversprechende Ansätze zur Programmierung mit 
natürlicher (geschriebener) Sprache entwickelt; ein wirklicher Durchbruch konnte jedoch nicht 
erzielt werden. Gerade in den letzten Jahren aber steigt das Interesse der Forschungsgemeinde an 
der natürlichsprachlichen Programmierung zusehends. Diese Beobachtungen werfen wiederum die 
Fragen auf, was die gegenwärtige Situation von der vor knapp 55 Jahren unterscheidet und warum 
Programmierung mit natürlicher Sprache heutzutage möglich sein könnte. Zunächst ist die Notwen- 
digkeit mehr denn je gegeben. Jean Sammet zielte mit ihrer Proklamation höchstwahrscheinlich noch 
auf professionelle Entwickler ab, für die der Nutzen natürlichsprachlicher Programmierung tatsäch- 
lich fraglich ist. Heutzutage stehen stattdessen die unzähligen Endnutzer von Computersystemen 
im Fokus, die es trotz mangelnder Programmierkenntnisse zu befähigen gilt, einfache Programme 
entwickeln zu können. Weiterhin ist die Akzeptanz für sprachgesteuerte Systeme heutzutage größer. 
Dank virtueller Assistenten und ähnlichen Systemen mit konversationellen Schnittstellen ist es 
inzwischen nichts Ungewöhnliches mehr, mit einem Computersystem zu sprechen. Vielmehr steht 
zu erwarten, dass Nutzer sich schon bald nicht mehr mit der ausschließlichen Nutzung von System 
mittels Sprache zufriedengeben und sich der Wunsch entwickelt, Systeme durch natürlichsprachliche 
Programmierung an die eigenen Bedürfnisse anzupassen. Schließlich wurden auf dem Gebiet der 
Computerlinguistik, das sich mit der rechnergestützten Analyse natürlicher Sprache beschäftigt, 
in den letzten Jahren (auch aufgrund des gestiegenen öffentlichen Interesses) enorme Fortschritte 
erzielt. Heutzutage steht — anders als 1966 oder auch noch vor zehn Jahren — eine Vielzahl von 
Standardwerkzeugen, vortrainierten Sprachmodellen und linguistischen Datensammlungen zur 
Verfügung; viele dieser Ressourcen können uneingeschränkt verwendet werden. Die Vorausset- 
zungen für die Entwicklung eines Systems zur Programmierung mit gesprochener Sprache sind 
dementsprechend günstiger denn je. Damit jedoch das enorme Potenzial, das die Computerlinguistik- 
Forschungsgemeinde geschaffen hat, auch nutzbar wird, muss es gelingen, die unterschiedlichen 
Techniken und Ressourcen auf geeignete Weise zu kombinieren. Die rasante Entwicklung der 
vergangenen Jahre verdeutlicht zudem, dass es unumgänglich ist, Systeme offen zu gestalten, sodass 
sie einfach an neue Gegebenheiten angepasst und neue Techniken und Verfahren angewendet werden 


können. 


' Zu deutsch: Die einzige Weise, auf die sich eine Person wirklich auf ihr Problem konzentrieren und dieses lösen 


kann [...] besteht in der Befähigung, direkt mit dem Computer kommunizieren zu können ohne eine spezielle 
Zwischensprache erlernen zu müssen. 


1.2 Zielstellung und Einschränkungen 


1.2 Zielstellung und Einschränkungen 


In dieser Arbeit wird ein System entworfen und umgesetzt, dass Laien zur Programmierung 
befähigen soll. Programme sollen aus gesprochenen Handlungsanweisungen abgeleitet werden. Die 
Handlungsanweisungen sollen in alltäglicher Sprache beschrieben werden können; das bedeutet, 
das System schränkt die Formulierungen, die ein Nutzer verwenden kann, um sein Programm zu 
beschreiben, nicht ein. 


Zur Umsetzung dieser Anforderungen muss das System ein tiefes Verständnis gesprochener Sprache 
erlangen. Aktuelle Systeme, die über eine konversationelle Schnittstelle angesprochen werden 
können, wie beispielsweise virtuelle Assistenten, können nur einzelne Befehle verstehen. Dieses 
Maß an Sprachverständnis ist für die Programmierung noch unzureichend. Um ein Programm aus 
einer gesprochenen Äußerung ableiten zu können, muss eine Folge von Handlungsanweisungen 
erkannt und programmatisch interpretiert werden. Das bedeutet, anhand natürlichsprachlicher 
Beschreibungen soll Quelltext synthetisiert werden, der beliebig viele Anweisungen enthält. Zudem 
soll es möglich sein, Handlungsanweisungen so zu formulieren, dass sie nur unter einer bestimmten 
Bedingung oder wiederholt auszuführen sind; im programmatischen Sinne entspricht dies der 
Erkennung von Kontrollstrukturen, die dementsprechend ebenfalls synthetisiert werden sollen. 
Grundsätzlich liegt der Fokus allerdings auf einfachen (kurzen und skriptartigen) Programmen, wie 
sie von Laien zur Steuerung eines Computersystems zu erwarten sind. 


Da ein konkretes System gesteuert werden soll, beschränken sich die Anweisungen auf Aufrufe 
von Schnittstellenfunktionen. Das bedeutet, die Programme sollen aus einer Komposition von 
Grundfunktionalitäten eines beliebigen Zielsystems gebildet werden. Es soll aber möglich sein, dem 
System neue Funktionen zu lehren; dadurch kann der Umfang der Grundfunktionalitäten eines 
Systems erweitert werden. Das in dieser Arbeit entwickelte System agiert somit als intelligente 
konversationelle Schnittstelle zur Programmierung beliebiger Zielsysteme. 


Denkbar wäre beispielsweise folgendes Szenario: Ein Nutzer erklärt einem Haushaltsroboter mit 
konversationeller Schnittstelle Arbeitsabläufe, wie Wäsche waschen oder Spülmaschine ausräumen. 
Der Roboter erstellt daraus ein Ablaufskript. Sollte der Roboter Teile der Anweisungen nicht 
verstehen, stellt er Rückfragen an den Nutzer. Der Roboter führt die Anweisungssequenz nicht 
nur aus, sondern merkt sich die Abläufe. Beim nächsten Mal, wenn er Wäsche waschen oder die 
Spülmaschine ausräumen soll, kann er die gelernten Abläufe abrufen. Ein derartiges Verhalten 
wird durch die Verwendung einer intelligenten konversationellen Schnittstelle möglich, solange das 
Robotersystem bereits eine Reihe von grundlegenden Funktionen anbietet, wie beispielsweise das 
Greifen von Objekten oder die Fahrt (oder das Gehen) an einen (benennbaren) Ort. Die Schnittstelle 
sorgt dann für das Verständnis der gesprochenen Sprache — gegebenenfalls inklusive Rückfragen 
an den Nutzer — und eine geeignete Komposition der Grundfunktionen. Darüber hinaus sorgt die 
konversationelle Schnittstelle dafür, dass der erlernte Ablauf nicht nur generalisiert, sondern auch 
für zukünftige Verwendungen abgespeichert wird. 


1 Programmierung mit gesprochener Sprache — Eine Notwendigkeit 


1.3 Abgrenzung 


Wie bereits angedeutet, gibt es bereits eine Vielzahl von Ansätzen zur Programmierung mit 
natürlicher Sprache2| Diese befassen sich allerdings nahezu ausschließlich mit der Synthese von 
Programmen anhand fextueller Beschreibungen; sie können auch nicht ohne Weiteres auf die 
Verarbeitung gesprochener Äußerungen übertragen werden, da sich gesprochene fundamental 
von textueller Sprache unterscheidet: Unter anderem ist sie meist ungrammatikalisch und enthält 
Unterbrechungen, Verzögerungslaute sowie Selbstkorrekturen; all dies erschwert die Analyse 
erheblich (insbesondere für Verfahren, die für Textdokumente entwickelt wurden). Daher betrachten 
nur wenige Ansätze überhaupt gesprochene Äußerungen und wenn dann auch nur unterstützend 
für ein anderes Verfahren] Außerdem schränken viele die Sprache ein, die zur Programmierung 
verwendet werden darf. Das bedeutet, Handlungsanweisungen können nicht frei formuliert werden; 
beispielsweise können Nutzer nur festgelegte Satzschablonen verwenden oder sind gezwungen, 
ihre Beschreibung mit der Formulierung einer Bedingung zu beginnen. Die meisten verwandten 
Ansätze stellen zudem Speziallösungen dar. Sie wurden für genau einen Anwendungsfall entwickelt, 
beispielsweise für die Synthese von Tabellenkalkulationsmakros anhand textueller Beschreibungen. 
Durch die Einschränkung auf eine bestimmte Anwendungsdomäne, können bei der Analyse der 
natürlichen Sprache Annahmen bzw. Einschränkungen getroffen werden, die die Interpretation 
deutlich vereinfachen. Allerdings können derartige Systeme nicht oder nur mit großem Aufwand auf 
andere Anwendungsdomänen übertragen werden. Fast alle bekannten Systeme zur Programmierung 
mit natürlicher Sprache sind zudem monolithisch entworfen; das bedeutet, unter Anwendung 
einer bestimmten Technik wird die Sprache analysiert und (ohne Zwischenergebnisse) direkt ein 
Quelltext-Generat erzeugt; die Systeme agieren als sogenannter schwarzer Kasten (engl. black 
box). Dadurch können Fehlerquellen, die bei der Interpretation der natürlichen Sprache auftreten, 
kaum ermittelt und die angewandten Techniken dementsprechend auch nicht zielgerichtet optimiert 
werden. Zudem können monolithische Architekturen nur schwierig erweitert oder adaptiert werden. 


Das in dieser Arbeit beschriebene System ermöglicht die Programmsynthese anhand gesprochener 
Äußerungen unter Verwendung beliebiger Formulierungen. Außerdem liegt dem System eine offene 
Architektur zugrunde; diese unterteilt das System in definierte Einzelkomponenten, sogenannte 
Agenten. Durch diesen Ansatz kann das System mit geringem Aufwand an andere Anwendungsdomä- 
nen (das heißt andere Zielsystemschnittstellen, die eine beliebige Programmiersprache verwenden) 
angepasst werden; bei einer Adaption bleibt der Großteil des Systems unverändert — insbesondere 
die Teile, die natürliche Sprache interpretieren und entsprechend aufwendig zu entwickeln sind. 
Außerdem ist das System erweiterbar; das Sprachverständnisvermögen kann beliebig ausgedehnt 
werden. Falls festgestellt wird, dass die Interpretation der natürlichen Sprache nur unzureichend 
gelingt, können neue Sprachverständniskomponenten jederzeit hinzugefügt werden. Die Unterteilung 
des Systems in Einzelkomponenten hat zudem den Vorteil, dass diese unabhängig voneinander 
evaluiert und Fehlerquellen dementsprechend exakt bestimmt werden können. 


Ein eingehender Vergleich mit verwandten Arbeiten wird in|Kapitel 3 angestellt. 
Beispielsweise bieten einige Ansätze die Möglichkeit visuelle Programmierung (durch Zeigegesten) durch einzelne 
gesprochene Anweisungen zu unterstützen. 


1.4 Eine agentenbasierte Architektur für tiefes Sprachverständnis 


1.4 Eine agentenbasierte Architektur für tiefes 
Sprachverständnis 


Als Grundlage für ein System zur Programmierung mit gesprochener Sprache wird zunächst eine 
generische Architektur für tiefes Sprachverständnis entworfen. Die Architektur PARSE (kurz 
für Programming Architecture for Spoken Explanations) kann für die Entwicklung beliebiger 
Systeme zur Analyse der Semantik natürlicher Sprache verwendet werden; die Programmierung mit 
gesprochener Sprache ist nur ein möglicher Anwendungsfall. PARSE sieht die Untergliederung 
in unabhängige (bzw. entkoppelte) Komponenten vor, sodass einzelne Aspekte der natürlichen 
Sprache getrennt voneinander analysiert werden können. Sprachanalysen werden als unabhängige 
Agenten implementiert, die nebenläufig ausgeführt werden. Über eine definierte Schnittstelle können 
zudem externe Wissensquellen angebunden werden. Die Architektur zeichnet sich durch folgende 
Merkmale gegenüber bestehenden Ansätzen aus: 


e Verwendung unabhängiger Agenten für Sprachanalysen: Die Analyse der Semantik natür- 
lichsprachlicher Artefakte erfolgt durch unabhängige Agenten. Während für die Analyse der 
Syntax geschriebener Sprache häufig Fließbänder verwendet werden, sind derzeitige Systeme 
für Sprachverständnis (das heißt zur Analyse der Semantik und Pragmatik) zumeist monoli- 
thisch und auf die Verwendung einer Technik festgelegt. Durch die Verwendung unabhängiger 
Agenten können statistische, sowie regel- und wissensbasierte Techniken kombiniert und 
verschiedentliche Ressourcen angebunden werden. Zudem können Systeme durch Austausch 
oder Hinzufügen von Agenten einfach erweitert bzw. angepasst werden. 


Parallele und wiederholte Durchführung der Sprachanalysen: Die Agenten führen ihre 
Sprachanalysen parallel und wiederholt aus. Während sequenzielle Fließbänder in der Compu- 
terlinguistik ein Standardkonstrukt darstellen, wurden die Möglichkeiten parallel ausgeführter 
Analyseschritte bisher kaum untersucht. Die parallele und wiederholte Ausführung der 
Analysen ermöglicht es, gegenseitige Abhängigkeiten aufzulösen. Dadurch kann ein tieferes 
Sprachverständnis erreicht werden. 


Graphbasierte Darstellung der Sprachanalysen: Die (Zwischen-)Ergebnisse der Agenten 
werden in einem Graphen (als eine Art Interlingua) dargestellt. Bestehende Ansätze erlauben 
keine Betrachtung von Zwischenergebnissen; es können lediglich Regelanwendungen oder 
Modelle (bei Nutzung maschinellen Lernens) betrachtet werden. Die Darstellung als Graph ist 
einerseits für den Menschen leicht verständlich; andererseits können auch programmatische 
Strukturen einfach abgebildet und weit entfernte semantische Abhängigkeiten dargestellt 
werden. Ebenso können Informationen aus externen Wissensquellen hinzugefügt werden. 


Die Architektur gliedert sich, wie in|Abbildung 1.1 dargestellt, in drei Hauptbestandteile: 


1. eine sequenzielle Vorverarbeitung (in einem Fließband), 
2. eine parallele Komponente für Sprachverständnis und 


3. eine sequenzielle Nachverarbeitung (in einem weiteren Fließband). 
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Abbildung 1.1: Struktureller Aufbau der agentenbasierten Architektur für tiefes Sprachverständnis PARSE. 


Innerhalb der Komponente zur Vorverarbeitung wird das zu analysierende natürlichsprachliche 
Artefakt (beispielsweise ein Textdokument oder ein Audiosignal) für die semantische Analyse 
vorbereitet. Hierzu können Standardtechniken der Computerlinguistik angewendet werden, wie 
automatische Spracherkennung, oder Zerlegung der Eingabe in eine Wortsequenz. Das Ergebnis der 
Vorverarbeitung wird in eine Graph-Darstellung überführt. Die Komponente für Sprachverständnis 
bildet den Kern der Architektur. In unabhängigen Agenten können unterschiedliche Analyseaufgaben 
implementiert werden; die Architektur sorgt dafür, dass die Agenten parallel ausgeführt werden. 
Dadurch können sie potenziell von Analyseergebnissen anderer Agenten profitieren; unterschiedliche 
Sprachanalysen können sich so gegenseitig unterstützen. Analyseergebnisse werden von den Agenten 
als Änderungen am Graphen hinterlegt. Das endgültige gemeinsame Analyseergebnis aller Agenten 
wird schließlich an die sequenzielle Nachverarbeitung übergeben. Dort wird das Analyseergebnis 
interpretiert und eine Ausgabe generiert; welche Art von Ausgabe erzeugt wird, hängt vom konkreten 
Anwendungsfall des auf Basis der Architektur erstellten Systems ab. Das in dieser Arbeit entwickelte 
System zur Programmierung mit natürlicher Sprache erzeugt in der Nachverarbeitung beispielsweise 
Quelltext. 


1.5 Ein System zur Endnutzer-Programmierung mit 
gesprochener Sprache 


Auf Grundlage der Architektur PARSE wird im zweiten Teil der Arbeit das System Prof, 
zur Endnutzer-Programmierung mit gesprochener Sprache entwickelt. Hierzu werden konkrete 
Implementierungen für die durch die Architektur vorgesehenen Bestandteile (das heißt Agenten und 
Fließbandstufen) bereitgestellt. Informationen über die Anwendungsdomäne, beispielsweise die 
vom Zielsystem angebotenen Grundfunktionen, werden in Ontologien mit fester Struktur modelliert; 
dadurch bildet sich eine Art Schnittstelle zum Domänenwissen. Die Agenten und Fließbandstufen 
werden so entwickelt, dass sie die Struktur der Ontologien als vorausgesetzt annehmen, aber keine 
Annahmen über den Inhalt machen; beispielsweise ist bekannt, dass es eine Anwendungsschnittstelle 
gibt, diekonkreten Funktionen müssen aber zur Laufzeit erfragt werden. Der Vorteil der Modellierung 
der Anwendungsdomäne in Ontologien ist, dass diese einfach ausgetauscht werden können; soll 
Prof% ein neues Zielsystem ansteuern, genügt es eine entsprechende Ontologie bereitzustellen. 
Der Rest des Systems kann nahezu unverändert weiterverwendet werden. 


1.5 Ein System zur Endnutzer-Programmierung mit gesprochener Sprache 


Da Nutzer Programme mit gesprochener Sprache beschreiben können sollen, wird die von PARSE 
vorgesehene Vorverarbeitung dazu genutzt, das Audiosignal zunächst in eine textuelle Form zu 
überführen. Anschließend wird die Syntax der Äußerung analysiert. Die Interpretation der Hand- 
lungsbeschreibung erfolgt durch ein Ensemble von Agenten. Insgesamt werden sechzehn Agenten 
verwendet, die unterschiedliche Aufgaben erfüllen. Die Agenten können drei Aufgabenfeldern zuge- 
ordnet werden: Ein Teil der Agenten übernimmt allgemeine Aufgaben zur Analyse der Semantik, wie 
die Auflösung von sprachlichen Referenzen oder die Modellierung des sprachlichen Kontextes. Wei- 
tere Agenten untersuchen die Äußerung auf Strukturen, die als Programmbestandteile interpretiert 
werden können, wie Anweisungen und Kontrollstrukturen. Zuletzt übernehmen Agenten funktionale 
Aufgaben, wie beispielsweise Dialogführung. Durch das Zusammenspiel der Agenten entsteht ein 
tiefes Verständnis der Äußerung und gleichzeitig eine Interpretation der Handlungsbeschreibung des 
Nutzers als Programm. Pro, verwendet die von PARSE vorgesehene Nachverarbeitung dazu, 
das Analyseergebnis der Agenten zunächst in einen abstrakten Syntaxbaum umzuwandeln. Dieser 
kann anschließend in Quelltext zur Ausführung auf einem beliebigen Zielsystem übersetzt werden. 
Das System Pro, zeichnet sich durch folgende Merkmale aus: 


e Verständnis uneingeschränkter Sprache: Das Ensemble von Agenten erzeugt ein tiefes 
Verständnis gesprochener Sprache erzeugt. Die Unterteilung in unabhängige Agenten, die 
einzelne Aspekte der Sprache analysieren, erlaubt zielgerichtete und hoch spezialisierte 
Lösungen, die zusammengenommen eine umfassende Interpretation gesprochener Äußerungen 
ermöglichen. Dadurch ist es nicht nötig die natürliche Sprache einzuschränken; das bedeutet, 
Nutzer können beliebige Formulierungen zur Beschreibung ihrer Programme verwenden. Im 
Gegensatz zu bestehenden Lösungen ist Prof, außerdem in der Lage, nicht nur einzelne 
Befehle, sondern auch längere Befehlsketten samt Kontrollstrukturen zu verarbeiten. Zudem 
kann Pro, neue Funktionen erlernen und ist somit in der Lage, den Funktionsumfang der 
Anwendungsschnittstelle des Zielsystems zu erweitern. 


e Evaluations-getriebene Entwicklung: Die Untergliederung des Systems in unabhängige 
Einzelbestandteile (das heißt Fließbandstufen und Agenten) ermöglicht es, diese auch 
unabhängig voneinander zu evaluieren. Dadurch kann für jeden neu entwickelten Bestandteil 
bestimmt werden, ob er die ihm zugedachte Aufgabe zufriedenstellend löst und somit 
einen Beitrag zur Sprachverständnisfähigkeit des Gesamtsystems leistet. Auf diese Weise 
können Fehlerquellen (bzw. Optimierungspotenzial) präzise bestimmt werden und es wird ein 
konstanter (Evaluations-getriebener) Entwicklungsfortschritt sichergestellt. 


e Domdnenunabhdngigkeit: Die Sprachanalysen der Agenten sind zwar (teilweise) auf die 
Interpretation der Äußerungen als Programm ausgelegt; sie sind jedoch nicht auf ein konkretes 
Zielsystem oder eine Programmiersprache festgelegt. Dadurch ist Pro, in der Lage aus 
beliebigen Äußerungen Pseudo-Quelltext zu erzeugen. Informationen über das zu program- 
mierende Zielsystem werden in einer Ontologie modelliert, deren festgelegte Struktur eine 
Art Schnittstelle zu Domänenwissen erzeugt. Erst während der Nachverarbeitung wird das 
Analyseergebnis der Agenten auf konkreten Quelltext abgebildet. Dadurch muss Prog% 
nur geringfügig angepasst werden, wenn ein anderes Zielsystem angesprochen werden soll. 
Insbesondere können alle Agenten unverändert weiterverwendet werden. 
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1.6 Thesen 


Das System Pro, soll Laien befähigen, einfache Programme zu erstellen, die auf der Verwendung 
von Anwendungsschnittstellen beliebiger Zielsysteme beruhen. Die Programme sollen mit alltäglicher 
Sprache beschrieben werden können. Zudem soll das System es erlauben, neue Funktionen zu 
definieren, ebenfalls durch gesprochene Beschreibungen. Pro /, basiert auf der Architektur PARSE, 
welche die Verwendung von unabhängigen Agenten zur Erzeugung von tiefem Sprachverständnis 
vorsieht. Das tiefe Verständnis der natürlichsprachlichen Programmbeschreibungen ermöglicht die 
Synthese von beliebig langen Aufruffolgen und die Erkennung von Kontrollstrukturen sowie die 
Generierung von Methodendefinitionen. Um prüfen zu können, ob die Zielstellung unter Anwendung 
des beschriebenen Ansatzes erfüllt wird, werden die folgenden Thesen aufgestellt: 


Tı: Aus gesprochenen Äußerungen kann Quelltext zur Programmierung von Zielsystemen mit 
einer Endnutzer-Anwendungsschnittstelle synthetisiert werden. 


Tı.ı: Anhand gesprochener Handlungsbeschreibungen können skriptartige Programme, die 
aus Aufrufen von Funktionen einer Anwendungsschnittstelle bestehen, erzeugt werden. 


Tı.2: Anhand lehrender Beschreibungen können Methodendefinitionen synthetisiert und 
dadurch der Funktionsumfang der Anwendungsschnittstelle eines Zielsystems erweitert 
werden. 


Tı.3: Es können automatisch Strukturen in natürlicher Sprache erkannt werden, welche die 
Verwendung von Kontrollstrukturen in einem Programm erfordern: Schleifen, bedingte 
Verzweigungen und nebenläufige Abschnitte können in die erzeugten Quelltexte integriert 
werden. 


Tı.4: Die Interpretation einer gesprochenen Äußerung als Programm kann größtenteils 
unabhängig vom konkreten Zielsystem durchgeführt werden. Dadurch ist der Aufwand 
zur Adaption an ein neues Zielsystem gering. 


Ta: Die Verwendung unabhängiger Agenten für einzelne Sprachanalyseaufgaben, die nebenläufig 
und wiederholt ausgeführt werden, erzeugt bei geeigneter Auswahl der Agenten ein tiefes 
Verständnis gesprochener Sprache. 


Ts: Durch gezielte Dialogführung können Unklarheiten bei der Interpretation einer gesprochenen 
Äußerungen beseitigt werden. 


In den nachfolgenden Kapiteln werden zur Untersuchung der Thesen zunächst die Architektur 
PARSE und das System Prof, zur Endnutzer-Programmierung mit gesprochener Sprache 
beschrieben. Anschließend werden die Thesen diskutiert und geprüft, inwieweit die definierten 
Ziele erreicht werden konnten. 


1.7 Aufbau der Arbeit 


1.7 Aufbau der Arbeit 


Die weitere Arbeit ist wie folgt strukturiert: Im nachfolgenden Kapitel werden zunächst die 
notwendigen Grundlagen zum Verständnis der Arbeit gelegt (Kapitel 2). Anschließend werden 
verwandte Arbeiten aus dem Gebiet der Programmierung mit natürlicher Sprache und daran 
angrenzender Themengebiete diskutiert (Kapitel 3). Als Nächstes wird die Architektur PARSE 
vorgestellt (Kapitel 4). Hierzu werden zunächst Anforderungen an eine Architektur für tiefes 
Verständnis natürlicher Sprache aufgestellt. Ausgehend von den Anforderungen wird der Aufbau von 


PARSE abgeleitet. Es folgt die Beschreibung des Systems Pro, zur Endnutzer-Programmierung 
mit natürlicher Sprache, das auf der Architektur PARSE basiert (Kapitel 5). Dabei werden die 
Zieldefinition präzisiert, der Forschungsansatz erläutert und ein Überblick über die Bestandteile 


(Fließbandstufen und Agenten) gegeben. Die Beschreibungen zu den konkreten Bestandteilen 
schließen sich in den darauffolgenden Kapiteln an. Zunächst wird die Vorverarbeitung einer 
natürlichsprachlichen Äußerungen in einem Fließband erläutert (Kapitel 6). Es folgt die Beschreibung 
der Analyse der Semantik durch die Agenten Kapitel 7). Schließlich wird die Nachverarbeitung 
der Analyseergebnisse, die zur Synthese von Quelltext führt, dargelegt (Kapitel 8). Die drei 
letztgenannten Kapitel enthalten jeweils intrinsische Evaluationen der betrachteten Bestandteile. 
Zusätzlich wird das Zusammenspiel der Bestandteile im Gesamtsystem Pro, evaluiert (Kapitel 9) . 
Zuletzt wird die Arbeit zusammengefasst (Kapitel 10). Dabei werden die aufgestellten Thesen 
betrachtet und geprüft, für welche die Arbeit Belege liefern konnte. Außerdem werden weiterführende 


Forschungsfragen diskutiert. 


2 Grundlagen 


„We believe that modern Natural Language Processing techniques can 
make possible the use of natural language to (at least partially) express 
programming ideas, thus drastically increasing the accessibility of 


programming to non-expert users.“ 


— Rada Mihalcea et al. 


In diesem Kapitel werden die zum Verständnis der Arbeit nötigen Grundlagen erläutert. Da sich die 
Arbeit dem Forschungsgebiet der Endnutzer-Programmierung zuordnen lässt, wird dieses zunächst 
kurz eingeführt (Abschnitt 2.1). Anschließend werden die wichtigsten Konzepte des maschinellen 
Lernens beschrieben (Abschnitt 2.2). Zur Umsetzung des in dieser Arbeit vorgeschlagenen Ansatzes 
zur Endnutzer-Programmierung mit natürlicher Sprache werden eine Vielzahl von Theorien, 


Techniken und Verfahren der Computerlinguistik verwendet. Daher schließt sich eine eingehende 
Einführung in dieses Forschungsgebiet an (Abschnitt 2.3). Unter anderem werden Standardtechniken 
zur Syntaxanalyse, Datenbanken linguistischen Wissens und Datenmodelle zur Repräsentation 
linguistischer Informationen vorgestellt. Zuletzt werden Evaluationsmetriken eingeführt, auf die in 
den nachfolgenden Kapiteln Bezug genommen wird (Abschnitt 2.4). 


2.1 Endnutzer-Programmierung 


Die Endnutzer-Programmierung (engl. end-user programming, kurz EUP oder end-user develop- 
ment, kurz EUD) ist ein Forschungsgebiet der Informatik. Grundsätzlich verfolgt die Endnutzer- 
Programmierung das Ziel, Endnutzer ohne (oder mit geringer) Programmiererfahrung in die Lage 
zu versetzen, einfache Programme zu erstellen. Hierzu sollen die Nutzer nicht zunächst eine Pro- 
grammiersprache erlernen müssen (oder wenn dann eine intuitive). Die Endnutzer-Programmierung 
als eigenständiger Forschungszweig wird erstmals 2006 von Liebermann et al. wie folgt defi- 
niert [Lie+06]. 


„End-User Development can be defined as a set of methods, techniques, and tools 


that allow users of software systems, who are acting as non-professional software 


developers, at some point to create, modify or extend a software artifact.{}] 


Zu deutsch: Endnutzer-Programmierung kann definiert werden als eine Menge von Methoden, Techniken und 
Werkzeugen, die es Nutzern eines Softwaresystems, die keine professionellen Software-Entwickler sind, erlauben, 
ein Software-Artefakt zu erstellen, zu modifizieren oder zu erweitern. 
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2 Grundlagen 


Der Hauptgrund für das steigende Interesse an diesem Forschungsgebiet ist die stark waschende Zahl 
an Endnutzern in den letzten Jahrzehnten. Heutzutage kommen Menschen in ihrem Alltag ständig in 
Kontakt mit Computersystemen. Abseits von Arbeits- und Heim-PCs steigt die Anzahl persönlicher 
Computersysteme stetig, wie beispielsweise Smartphones und Tablets, oder Heimautomationssysteme 
etc. Allerdings ist nur ein geringer Teil der Nutzer in der Lage diese Systeme zu programmieren. Das 
volle Potenzial von Computersystemen kann aber nur genutzt werden, wenn diese auch programmiert 
werden können. Da nicht jeder Nutzer gewillt ist, Programmierung (und Programmiersprachen) 
vollumfänglich zu erlernen, wird die Endnutzer-Programmierung immer relevanter. 


Unter dem Oberbegriff Endnutzer-Programmierung wird eine Vielzahl unterschiedlicher Strö- 
mungen zusammengefasst. Eine seit jeher von vielen Anwendern benutzte Form der Endnutzer- 
Programmierung ist die Erstellung von Formeln mittels Bibliotheksfunktionen in Tabellenkalkulation- 
Software. Auch die Erzeugung von Makros zählt zum Gebiet der Endnutzer-Programmierung. Eine 
weitere populäre Form ist die visuelle Programmierung (engl. visual programming), bei der Endnutzer 
in einer graphischen Benutzeroberfläche Programmkonstrukte, wie Anweisungen, Kontrollstruktu- 
ren und Methodensignaturen, die meist als Blöcke visualisiert werden, zusammenfügen können 
und dadurch Programme erstellen. Eine andere Herangehensweise wird bei der Programmierung 
anhand von Beispielen (engl. programming by example, kurz PbE) verfolgt. Hier definiert der 
Nutzer Ein- und Ausgabebeispiele für ein zu erstellendes Programm; das PbE-System versucht 
aus diesen Beispielen ein Programm zu inferieren. Je nach Verfahren kann der Nutzer interaktiv in 
den Vorgang eingreifen oder das Programm nachträglich modifizieren. Nicht zuletzt stellt auch die 
Programmierung mit natürlicher Sprache eine Form der Endnutzer-Programmierung dar (sofern es 
sich nicht um Verfahren zum Quelltextdiktat handelt). Dadurch, dass Nutzer Programme in Alltags- 
sprache beschreiben können, statt eine spezielle Programmiersprache erlernen zu müssen, wird eine 
der hauptsächlichen Hürden beim Programmieren ausgeräumt. Davon abgesehen existieren auch 
Mischformen, wie beispielsweise die Unterstützung der Programmierung anhand von Beispielen 
durch textuelle Beschreibungen oder die Synthese von Makros zur Bearbeitung von Tabellen aus 
natürlichsprachlichen Äußerungen (siehe|Kapitel 3). Darüber hinaus gibt es viele weitere Varianten 
der Endnutzer-Programmierung. Welche Systeme und Techniken hinzuzuzählen sind, hängt auch 


davon ab, wie restriktiv die zu Beginn des Abschnitts angegebene Definition von Lieberman et al. 


ausgelegt wird. 


2.2 Maschinelles Lernen 


Der Begriff maschinelles Lernen (engl. machine learning) beschreibt in der Informatik Programme, 


die durch Erfahrung ihre Leistung automatisch steigern |Mit97]. Das zugehörige Forschungsgebiet 


beschäftigt sich mit der Aufstellung von Theorien und Modellen sowie der Bereitstellung von 
Verfahren und Techniken. Der Großteil der Ansätze, die dem maschinellen Lernen zugeordnet 
werden, versuchen anhand von Beispieldaten Lösungen für Problemstellungen zu erlernen. Der 
Lernprozess wird häufig mithilfe mathematischer Modellierungen bewerkstelligt; dieser Lernprozess 
wird gemeinhin auch als Trainingsphase (engl. training phase) und die verwendeten Beispiele als 
Trainingsdaten (engl. training data) bezeichnet. Zumeist werden probabilistische Modellierungen 
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2.2 Maschinelles Lernen 


der Problemstellungen verwendet. Das Ergebnis des Lernprozesses (das heißt das erlernte Wissen) 
ist eine konkrete Modell-Instanz. Anhand des gelernten Modells können anschließend die Ausgaben 
für zukünftiger Eingabedaten erzeugt werden (das heißt, dass beispielsweise die Zugehörigkeit zu 
einer Klasse vorhergesagt wird). Die drei wesentlichen Varianten maschinellen Lernens sind die 
folgenden [Mit97]: 


e überwachtes maschinelles Lernen: Unter überwachtem maschinellen Lernen (engl. su- 
pervised maschine learning) versteht man das Lernen aus Ein- und Ausgabebeispielen zu 
einer gewissen Problemstellung. Das bedeutet, anhand der Beispiele wird unter Verwendung 
einer mathematischen Modellierung eine Zuordnung von Ein- zu Ausgabe erlernt. Mithilfe 
des gelernten Modells können die Ausgaben für zukünftige (ungesehene) Eingabedaten 
vorhergesagt werden. Diese Form des Lernens wird als überwacht bezeichnet, da die Art der 
Ausgabe bekannt ist und für das Training des Modells Beispielausgaben (zu Eingabedaten) 
zur Verfügung stehen. 


e unüberwachtes maschinelles Lernen: Unter unüberwachtem maschinellen Lernen (engl. 
unsupervised maschine learning) versteht man das Lernen ausschließlich anhand von Ein- 
gabedaten. Da keine erwarteten Ausgaben bekannt sind, wird diese Form des Lernen als 
unüberwacht bezeichnet. Da keine Ausgabedaten zum Abgleich verwendet werden können, 
wird stattdessen versucht, innerhalb der Eingabedaten Strukturen zu erkennen. Die häufigs- 
te Form des unüberwachten Lernens sind Verfahren, die Eingabedaten gruppieren (engl. 
clustering); anhand von Eigenschaften der Eingabedaten werden unter Verwendung einer 
mathematischen Modellierung Gruppenzugehörigkeiten erlernt. 


e bestärkendes maschinelles Lernen: Unter bestärkendem Lernen (engl. reinforcement 
learning) versteht man das Lernen anhand von Rückmeldungen der Umgebung. Ansätze 
dieser Kategorie verwenden (einfache) initiale Modelle anhand derer sie Entscheidungen (bzw. 
Vorhersagen) treffen. Die Umgebung (meist ein weiteres Programm oder ein menschlicher 
Nutzer) gibt dem Verfahren Rückmeldung zur zuletzt getroffenen Entscheidung, im einfachsten 
Fall nur, ob diese richtig oder falsch war. Anhand dieser Rückmeldung wird das Modell 
automatisch adaptiert (meist gemäß einer mathematischen Modellierung). 


Abgesehen von diesen Grundvarianten existiert eine Vielzahl abgeleiteter Variationen, wie beispiels- 
weise halb-überwachtes Lernen (engl. semi-supervised learning) oder überwachtes Lernen anhand 
unüberwacht erzeugter Ausgabedaten (engl. distant supervision). Außerdem gibt es eine Reihe 
von Verfahren, die bestehende Ansätze optimieren. Unter anderem gibt es Verfahren, die erlernen, 
welche Eigenschaften (engl. feature) der Eingabe für die Problemstellung relevant sind (engl. feature 
learning). Ein weiterer Vertreter ist das sogenannte Meta-Lernen (engl. meta learning); Verfahren 
dieser Art erlernen ein Modell, das Vorhersagen darüber machen kann, welches Modell aus einer 
Menge von Modellen in einer bestimmten Situation (bzw. bei bestimmten Eingaben) verwendet 
werden sollte2| 


? Ein Meta-Lern-Ansatz wurde beispielsweise auch im Projekt Watson von IBM verfolgt Fer+10]. Vereinfacht gesagt 
wurde eine Menge von Modellen erlernt, die Antworten zu Fragestellungen liefern können. Das Meta-Modell 
wiederum entscheidet anhand der Eingabe, welchem Modell vertraut werden soll. 


13 


2 Grundlagen 


Die in den nachfolgenden Kapiteln beschriebenen Ansätze setzen (bei Verwendung von Lern- 
verfahren) ausschließlich überwachtes Lernen ein. Auch die im direkt anschließenden Kapitel 
beschriebenen verwandten Arbeiten verwenden größtenteils überwachtes Lernen (sofern ein Lern- 
verfahren verwendet wird). Daher wird im folgenden Abschnitt diese Variante des maschinellen 


Lernens näher betrachtet. 


2.2.1 Überwachtes maschinelles Lernen 


Überwachtes maschinelles Lernen bezeichnet das Erlernen anhand von Ein- und Ausgabebeispielen 
in einer Trainingsphase; einzelne Beispieldaten, die zum Trainieren verwendet werden, bezeichnet 
man als Trainingsinstanzen (engl. training instance). Das erlernte Wissen kann verwendet werden, 
um Vorhersagen über zukünftige, zuvor ungesehene Eingaben zu treffen. Als Eingabe werden 
üblicherweise keine Rohdaten verwendet (wie zum Beispiel nur die Wörter eines Textes); stattdessen 
wird aus den Rohdaten eine Menge sogenannter Eigenschaften (engl. feature) extrahiert. Für ein 
Wort eines Textes könnten solche Eigenschaften eine Aufzählung der umgebenden Wörter, die 
Wortlänge, aber auch das Wort selbst sein. Die gesammelten Eigenschaften je Datum werden häufig 
als Vektor dargestellt; man spricht dann von Eigenschaftsvektoren (engl. feature vector). Je nach 
Problemstellung ist die Ausgabe entweder eine diskrete Klasse oder ein kontinuierlicher numerischer 
Wert; man unterscheidet dementsprechend Klassifikations- und Regressionsprobleme. In beiden 
Fällen ist das Ziel, mithilfe einer mathematischen Modellierung Muster in den Eigenschaften der 
Eingabedaten zu finden, anhand derer die Ausgabe vorhergesagt werden kann. Das erlernte Wissen 
entspricht dementsprechend einer konkreten Modell-Instanz der allgemeinen Modellierung. Die Art 
der möglichen Modellierung hängt davon ab, ob ein Regressions- oder Klassifikationsproblem gelöst 
werden soll. Im Folgenden werden vorrangig Klassifikationen diskutiert. Ein Klassifikationsproblem 
ist beispielsweise die Zuweisung von Wortarten zu Wörtern anhand von Eigenschaften der Wörter, 


wie der Wortumgebung (siehe|Abschnitt 2.3.4.3). Erfordert eine Problemstellung die Verwendung 


von genau zwei Klassen (beispielsweise wahr und falsch), spricht man von einem binären Klas- 
sifikationsproblem (engl. binary classification). Sind hingegen mehrere Klassen erforderlich (wie 
beispielsweise bei der Bestimmung von Wortarten als Ausgabeklassen), handelt es sich um ein 
Mehrfachklassen-Klassifikationsproblem (engl. multiclass classification)’ 


Konkrete Verfahren des tiberwachten maschinellen Lernens zur Klassifikation unterscheidet man vor 
allem dahingehend, welche mathematische Modellierung zugrunde gelegt wird. Das grundsätzliche 
Prinzip ist dabei immer dasselbe; mithilfe der mathematischen Modellierung soll für die Eingabebei- 
spiele anhand ihrer Eigenschaften eine bestmögliche Trennung ermittelt werden, die der Zuordnung 
zu den Ausgabeklassen entspricht. Bestmöglich bedeutet in diesem Zusammenhang, dass durch die 
erzeugte Trennung möglichst wenige Eingabeinstanzen falschen Ausgabeklassen zugeordnet werden. 
Die Annahme, die diesem Vorgehen zugrunde liegt, ist folgende: Zukünftige Eingaben mit ähnlichen 
Eigenschaften, lassen sich auf dieselbe Art trennen und somit Klassenzugehörigkeiten vorhersagen. 


3 Weiterhin unterscheidet man Klassifikationsprobleme dahingehend, ob einem Eingabedatum genau eine Klasse 


zugewiesen werden darf, oder ob mehrere Klassen zulässig sind. Im zweiten Fall spricht man von einer sogenannten 
Mehrfach-Etiketten-Klassifikation (engl. multi-label classification). 
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(a) linear (b) nicht-linear 


Abbildung 2.1: Zwei beispielhafte Trennungen von Trainingsinstanzen gemäß der erwarteten Ausgabeklassen: Abbildung 
(a) zeigt ein lineares und Abbildung (b) ein nicht-lineares Klassifikationsproblem. Die Trennungen sind jeweils durch 
eine grüne Linie symbolisiert. 


Abbildung 2.1|zeigt zwei Grafiken zur Veranschaulichung. In beiden Fällen werden Eingabedaten 


im zweidimensionalen Raun“! gemäß ihrer Klassenzugehörigkeit getrennt. Die grünen Linien 
symbolisieren die Trennung und somit das erlernte Modell; in beiden Fällen trennen die Modelle die 
Trainingsbeispiele perfekf| Die erlernte Trennung entspricht der konkreten Modell-Instanz. Je nach 
Verfahren schließt sich an die Trainingsphase eine sogenannte Validierungsphase (engl. validation 
phase) an. In diesem Fall wird nur ein Teil der Beispieldaten (meist 80%) zum Training verwendet; 
anhand der übrigen Daten wird das Modell getestet und Modellparameter werden automatisch 


angepasst, falls Fehlklassifikationen festgestellt werden. |Abbildung 2.1|veranschaulicht außerdem 


die Unterscheidung nach linearen und nicht-linearen Klassifikationsproblemen. Vereinfacht gesagt, 
bezeichnete man ein Klassifikationsproblem als linear, falls die Daten (in Annäherung) durch eine 
Hyperebene getrennt werden können; im zweidimensionalen Raum entspricht dies einer Geraden. 
Nicht-lineare Klassifikationsprobleme lassen sich nicht auf diese Weise trennen; es gibt keine 
Gerade die eine gute Trennung ermöglicht. Ob es sich um ein lineares oder nicht-lineares Klassifika- 
tionsproblem handelt, hat direkten Einfluss auf die möglichen mathematischen Modellierungen, 
die verwendet werden können. Einige Modellierungen eignen sich ausschließlich zur Darstellung 
linearer Zusammenhänge. Andere können zwar für beide Arten von Klassifikationsproblemen 
verwendet werden, erzielen aber deutlich bessere Ergebnisse (das heißt bessere Trennungen) für 
eine der beiden. Weitere können sowohl mit linearen als auch mit nicht-linearen Problemstellungen 
gleichermaßen umgehen, benötigen aber sehr viele Ressourcen; beispielsweise benötigen einige 
Verfahren mehr Trainingsdaten als andere, die Trainingsphase nimmt mehr Zeit in Anspruch oder 
sie erzeugen größere Modelle (im Sinne des Speicherbedarfs). 


Das bedeutet, die Eigenschaftsvektoren der Eingabedaten sind in diesem Beispiel zweidimensional. 

Anhand einer perfekten Trennung der Trainingsbeispiele durch das erlernte Modell kann keine Aussage über die 
Fähigkeit des Modells, ungesehene Eingaben zu trennen, getroffen werden. Das gelernte Modell kann trotz perfekten 
Trainings beliebig schlecht sein. Perfekte Trainingsgenauigkeiten werden vielmehr häufig kritisch gesehen, da sie ein 
Indiz für eine mögliche Überanpassung des Modells sind (mehr hierzu folgt am Ende des Abschnitts). 
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2.2.1.1 Die Modellierung als Einflussfaktor für die Klassifikationsgüte 


Da je nach Klassifikationsproblem und Randbedingungen (beispielsweise Umfang der Trainingsdaten 
oder Speicher-Ressourcen) die Verwendung einer anderen Modellierung die bestmögliche Trennung 
(und damit Klassifikation) erzielen kann, gibt es eine Vielzahl mathematischer Modellierungen für 
überwachtes maschinelles Lernen. Die im Folgenden kurz vorgestellten Klassen von Modellierungen 
werden häufig (vor allem auch in der Computerlinguistik) verwendet und werden auch in den 
nachfolgenden Kapiteln für unterschiedliche Problemstellungen eingesetzte] 


Naive-Bayes 


Verfahren dieser Klasse formulieren die Aufgabe der Zuweisung von Klassen zu Eingabedaten als 
einfaches probabilistisches Modell. Das Modell besagt, dass die Wahrscheinlichkeit P für eine 
Klasse k nur von den Merkmalen der beobachteten Eingabe (Eigenschaftsvektor) € abhängt: 


P(kle) (2.1) 


Da Eigenschaftsvektoren viele Dimensionen besitzen und die Dimensionen viele unterschiedliche 
Werte annehmen können, ist eine Berechnung der Werte anhand einer Wahrscheinlichkeitstabelle 
zu aufwendig. Stattdessen wird die Modellformulierung mithilfe des Satzes von Bayes umgeformt: 


P(k) - P(E|k) 
P(e) 


Da der Zähler nicht von k abhängt, wird dieser zur einfacheren Berechenbarkeit durch einen 


P(klē) = (2.2) 


konstanten skalierenden s Faktor ersetzt. Zusätzlich wird vereinfachend (bzw. naiv) angenommen, 
dass die einzelnen Eigenschaften unabhängig voneinander sind. Dadurch kann das Problem wie 
folgt angenähert werden: 


n 


P(e) = 2 - P(E) JI Pes) (2.3) 
i=1 


Damit können anhand der Trainingsdaten Modelle gelernt werden, indem einerseits die Vorkommen 
der Ausgabeklasse (entspricht P(k)) und anderseits die Vorkommen einer Klasse gemeinsam mit 
einer Eigenschaft (entspricht P(e;|k)) ermittelt werden (Maximum-Likelihood-Schätzung). 


Naive-Bayes-Klassifikationsverfahren skalieren hinsichtlich des Trainingsaufwands und der Modell- 
größe gut für große Datenmengen und Eigenschaftsvektoren mit vielen Dimensionen bzw. großen 
Wertebereichen. Da sie zudem - trotz der naiven Unabhängigkeitsannahme, die in den meisten Fällen 
inkorrekt ist — gute Ergebnisse erzielen können, werden sie häufig als erste Variante für neuartige 
Klassifikationsprobleme eingesetzt. Im direkten Vergleich mit den nachfolgenden Modellierungen 
ist die Güte der Klassifikation (unter denselben Randbedingungen) jedoch meist schlechter. 


6 Nähere Informationen zu diesen und weiteren Klassifikationsverfahren können den Büchern von Mitchell |Mit97 


und Bishop [Bis06| entnommen werden. 
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Entscheidungsbäume 


Verfahren dieser Klasse verwenden zur Modellierung des Klassifikationsproblems Entscheidungs- 
bäume (engl. decision trees). Da sowohl die Struktur der Bäume als auch die Entscheidungskriterien 
innerhalb der Knoten automatisch erlernt werden, spricht man von Entscheidungsbaumlernen (engl. 
decision tree learning). Die Trennung der Eingaben erfolgt anhand einer Reihe von Wenn-Dann- 
Regeln, die innerhalb der Knoten des Baums angewendet werden. Die Regeln beziehen sich auf 
einzelne Eigenschaften oder eine Menge von Eigenschaften der Trainingsinstanzen. 


Verfahren, die auf Entscheidungsbäumen basieren, haben den Vorteil, dass sie in der Regel auch gute 
Modelle erlernen können, wenn nur wenige Trainingsbeispiele zur Verfügung stehen. Außerdem 
können konkrete Modelle (und auf diesen basierende Klassifikationsergebnisse) einfach interpretiert 
und nachvollzogen werden. Andererseits gelten Entscheidungsbäume als nicht besonders robust; 
bereits geringfügige Änderungen der Trainingsinstanzen können zu gänzlich anders geformten 
Modellen führen. Außerdem neigen Entscheidungsbaum-basierte Verfahren zur Überanpassung auf 
die Trainingsdaten und generalisieren daher schlechter als andere Verfahren. 


Stützvektormethode 


Verfahren, welche auf der Stützvektormethode (engl. support vector machine, kurz SVM) basieren, 
trennen die Trainingsinstanzen anhand einer Hyperebene. Dabei wird während des Trainings 
diejenige Hyperebene bestimmt, welche die Trainingsinstanzen gemäß ihrer Klassenzugehörigkeit 
bestmöglich trennt und im Mittel den größtmöglichen Abstand zu den Vektoren aufweist. Die 
optimale Hyperebene kann entweder exakt bestimmt oder angenähert werden (beispielsweise durch 
das Gradientenverfahren). 


Die aus dem Training hervorgegangene Hyperebene wird durch ihre Stützvektoren beschrieben, die 
namensgebend für diese Klasse von Verfahren sind. Da die Hyperebene exakt bestimmt werden kann 
und keine Annahmen über die Verteilung der Instanzen des Datensatzes getroffen werden müssen, ist 
die Stützvektormethode nicht probabilistisch. Durch die Verwendung einer Hyperebene können nur 
lineare Klassifikationsprobleme gelöst werden. Um die Stützvektormethode auch auf nicht-lineare 
Probleme anwenden zu können, werden die Eigenschaftsvektoren in einen höherdimensionalen 
Raum projiziert, in dem eine Trennung möglich isf] 


Klassifikationsverfahren, welche die Stützvektormethode verwenden, gelten als sehr robust und 
erzielen (auch für Problemstellungen der Computerlinguistik) gute Klassifikationsergebnisse. Die 
Stützvektormethode kann allerdings nur auf binäre Klassifikationsprobleme angewendet werden; 
zur Anwendung auf Mehrfachklassen-Probleme müssen diese auf binäre zurückgeführt werden, 
wodurch zusätzlicher Trainingsaufwand entsteht und deutlich speicherintensivere Modelle erzeugt 


werderß] 


Die Projektion erfolgt aufgrund des Aufwands, der damit einhergeht, meist nur implizit mithilfe des sogenannten 
Kernel-Tricks. 

Sollen n Klassen unterschieden werden, müssen n binäre Modelle trainiert werden, was in etwa einen n-fachen Zeit- 
und Speicheraufwand nach sich zieht. 
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Logistische Regression 


Entgegen der Namensgebung werden Verfahren dieser Klasse für Klassifikations- und nicht für 
Regressionsprobleme eingesetzt. Die Klassifikation wird auf Grundlage einer Regressionskurve 
bewerkstelligt. Diese wird anhand der Trainingsinstanzen gebildet, indem die Parameter einer 
logistischen Funktion abgeschätzt werden. Die erzeugte Kurve dient zur Trennung der Klassenzuge- 
hörigkeit und bildet somit die Modell-Instanz. Die logistische Regression kann nicht nur für binäre, 
sondern auch für Mehrfachklassen-Klassifikationsprobleme verwendet werden. Klassifikationsver- 
fahren, die auf logistischer Regression basieren, werden vor allem in der Computerlinguistik häufig 


eingesetzt (siehe Abschnitt 2.3) und erzielen für diverse Problemstellungen, wie beispielsweise die 


Erkennung von Wortarten, sehr gute Ergebnisse] Ein Grund hierfür ist, dass zur Anwendung von 
logistischer Regression nicht wie bei Naive-Bayes-Verfahren die Unabhängigkeit der Eigenschaften 
angenommen werden muss; viele sprachliche Eigenschaften, wie beispielsweise Wortumgebungen, 
sind stark voneinander abhängig. Ein wesentlicher Nachteil der logistischen Regression ist der 
deutlich höhere Trainingsaufwand gegenüber vergleichbaren Ansätzen, wie Naive-Bayes-Verfahren. 


2.2.1.2 Weitere Einflussfaktoren 


Neben der Wahl der Modellierung gibt es eine Reihe weiterer Einflussfaktoren, welche die 
Güte des erlernten Klassifikationsmodells beeinflussen. Ein wesentlicher Faktor ist der Umfang 
des Trainingsdatensatzes. Im Allgemeinen gilt: je mehr Trainingsdaten zur Verfügung stehen, 
desto besser. Verfügt das Verfahren in der Trainingsphase über mehr Ein- und Ausgabebeispiele, 
kann das Modell feiner justiert werden und generalisiert besser. Das Problem hierbei ist, dass 
Ausgabebeispiele (das heißt Musterklassifikationen) zumeist manuell erstellt werden müssen, was 
einen erheblichen Aufwand mit sich bringt (siehe|Abschnitt 2.3.3). Dementsprechend stehen für 
viele Problemstellungen, die mit überwachtem maschinellen Lernen gelöst werden könnten, nicht 


ausreichend Trainingsdaten zur Verfügung. Das Hauptproblem des überwachten maschinellen 
Lernens ist also die inhärente Datenknappheit. 


Ein weiterer Faktor ist die Auswahl der Daten; diese sollte hinsichtlich der Problemstellung möglichst 
repräsentativ sein. Im besten Fall treten alle Ausgabeklassen gleich verteilt auf. Werden die Daten 
nicht repräsentativ gewählt oder ist der Umfang zu gering, sodass das Modell anhand von wenigen 
Beispielen (je Klasse) erlernt wird, kommt es zu einer sogenannten Uberanpassung (engl. overfitting) 
des Modells auf die Eingabebeispiele. Anschaulich bedeutet das, die Klassenzuweisungen werden 
auswendig gelernt und das gelernte Modell generalisiert schlecht. Die Folge davon ist, dass die 
Vorhersagen für ungesehene Beispiele ungenau sind, da bereits geringe Abweichungen von den 
Trainingsbeispielen (in den Eigenschaften) vom Modell nicht mehr erfasst werden können. 


Ein letzter an dieser Stelle diskutierter Einflussfaktor ist die Dimension der Eigenschaftsvektoren. 
Auch hier gilt grundsätzlich, je mehr, desto besser; stehen mehr Eigenschaften der Eingaben zur 


? Vor dem neuerlichen Aufkommen von künstlichen neuronalen Netzen (siehe Abschnitt 2.2.2) wurden für viele 
Aufgabenstellungen der Computerlinguistik die besten Ergebnisse durch Klassifikatoren erzielt, die auf logistischer 
Regression basieren. 
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Verfügung, werden diese prinzipiell auch leichter unterscheidbar. Allerdings führen höherdimensio- 
nale Eigenschaftsvektoren zu einer Steigerung der Komplexität der Modelle (je nach Modellierung 
fallen die Steigerungen unterschiedlich stark aus). Ein weiterer Nachteil der Verwendung vieler 
Eigenschaften ist, dass mit steigender Anzahl der Dimensionen die aufgespannten Räume immer 
dünner (durch die Vektoren) besetzt werden. Diesen Effekt bezeichnet man als Fluch der Dimen- 
sionalität (engl. curse of dimensionality). Dünn besetzte Räume sind für viele Modellierungen 
problematisch, beispielsweise für solche, die Abstandsmaße für Vektoren zur Trennung verwenden. 
Zuletzt kann eine Vielzahl schlecht gewählter Eigenschaften auch dazu führen, dass die Trennung 
der Eingaben nicht mehr möglich ist; anschaulich entsteht eine Art weißes Rauschen, das informative 
Eigenschaften überdeckt. Eigenschaften gelten dann als schlecht gewählt, wenn sie keinen Beitrag zur 
Trennbarkeit der Eingaben gemäß der Problemstellung liefern. Für die Bestimmung von Wortarten 
ist beispielsweise die Wortlänge eine schlecht gewählte Eigenschaft. Auch von diesem Effekt 
werden Verfahren je nach zugrundeliegender mathematischer Modellierung unterschiedlich stark 
negativ beeinflusst. Aufgrund dieser Problematiken ist eine sorgfältige Auswahl der Eigenschaften 
unerlässlich. Um die Auswahl zu unterstützen, werden eigens Verfahren entwickelt, die (zumeist 
unüberwacht) erlernen, welche Eigenschaften für eine konkrete Klassifikationsaufgabe relevant sind. 


2.2.2 Künstliche neuronale Netze 


Als künstliche neuronale Netze (engl. artificial neural network) bezeichnet man Verfahren des 
maschinellen Lernens, die eine Problemstellung - inspiriert von einem biologischen Gehirn — 


mithilfe von miteinander verbundenen Neuronen modellieren [Mit97]. In dem aus Neuronen 


und Verknüpfungen aufgespannten Netz können Informationen verarbeitet werden, indem diese 
von Neuronen über die Verknüpfungen an andere Neuronen weitergereicht werden. Eine Art der 
Informationsverarbeitung ist das Treffen einer Entscheidung anhand einer gegebenen Datenlage, 
was einer Klassifikation, wie im vorangegangen Abschnitt eingeführt, entspricht. Das Konzept der 
neuronalen Netze ist älter als viele andere Modellierungen, die für maschinelles Lernen verwendet 
werden. Bereits 1943 wurden die mathematischen Grundlagen gelegt, 1965 das erste funktionierende 
künstliche neuronale Netze vorgestellt und seit 1975 können sie effizient trainiert werden [Bis06]. 


Aber erst in den letzten zehn Jahren gewinnen künstliche neuronale Netze zunehmen an Popularität; 
der Hauptgrund hierfür ist, dass nur Netze, die aus einer großen Anzahl von Neuronen bestehen 
und auf umfangreichen Datensätzen trainiert wurden, anderen Verfahren deutlich überlegen sind. 
Für das Training und die Anwendung leistungsstarker neuronaler Netze werden dementsprechend 
Rechenleistungen und Speicher-Ressourcen benötigt, die erst durch moderne Computersysteme 
(und vor allem verteilte Systeme) bereitgestellt werden können. 


Künstliche neuronale Netze sind prinzipiell folgendermaßen aufgebaut [Mit97} Bis06]: Die we- 


sentliche Baueinheit sind Neuronen, die miteinander verknüpft sind. Neuronen nehmen Eingaben 
entgegen und können Ausgaben an verknüpfte Neuronen senden. Sie entscheiden eigenständig 
darüber, ob eine Ausgabe generiert wird und welche. Die Entscheidung hängt von der Summe 
der Eingaben an das Neuron ab. Diese Summe dient wiederum als Eingabe an eine sogenannte 
Aktivierungsfunktion (engl. activation function), anhand derer die letztliche Entscheidung getroffen 
wird. Die Aktivierungsfunktion kann prinzipiell beliebig gewählt werden, es gibt allerdings eine 
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Abbildung 2.2: Schematischer Aufbau eines künstlichen neuronalen Netzes. 


Reihe etablierter Funktionen, unter anderem lineare, logistische (auch als Sigmoid-Funktion be- 
zeichnet) und die sogenannte Softmax-Funktion. Letztere eignet sich vor allem zur Generierung der 
Ausgabe bei Mehrfachklassen-Klassifikationsproblemen. Die Verbindungen zu anderen Neuronen 
sind gerichtet und gewichtet. Die zuvor beschriebene Summe der Eingaben wird entsprechend der 
Verbindungsgewichte gewichtet. Neuronen werden üblicherweise in Schichten angeordnet, wobei 
nur Neuronen nebeneinanderliegender Schichten verknüpft werden. Grundsätzlich wird vollständig 
verknüpft; das bedeutet, alle Neuronen der einen Schicht werden mit allen der anderen verbunden. 
Alle künstlichen neuronalen Netze verfügen über zwei spezielle Schichten: die Eingabe- und die 
Ausgabeschicht. Die Neuronen der Eingabeschicht sind dafür zuständig, die Eingaben (üblicherweise 
in Form von Eigenschaftsvektoren) entgegenzunehmen und weiter zu propagieren. Die Neuronen in 
der Ausgabeschicht erzeugen eine Ausgabe, beispielsweise eine Klassifikation. Zwischen diesen 
Schichten können (müssen aber nicht) beliebig viele weitere Schichten angeordnet werden. Diese 
Zwischenschichten werden auch als verdeckte Schichten (engl. hidden layer) bezeichnet. 
dung 2.2| zeigt ein beispielhaftes künstliches neuronales Netz. Durch die Konstruktion von immer 


tieferen Netzen durch das Hinzufügen weiterer Schichten wurde der Begriff tiefes Lernen (engl. 
deep learning) geprägt. 


Künstliche neuronale Netze werden trainiert, indem die Gewichtungen (und gegebenenfalls weitere 


anpassbare (Schwellen-)Werte), automatisch angepasst werden [Mit97]. Hierzu wird das Netz 


zunächst mit zufälligen Gewichten konfiguriert. Anschließend wird anhand des Trainingsdatensatzes 
(Ein- und Ausgabebeispiele) der Anteil der Fehlklassifikationen bestimmt. Die Gewichte aller 
Kanten werden daraufhin (ausgehend von der Ausgabeschicht) gezielt mithilfe des sogenannten 
Rückpropagierungsverfahrens (engl. backpropagation) angepasst. Dieses verwendet wiederum das 
Gradientenabstiegsverfahren zur Minimierung der Fehlklassifikationen. 


Für den Aufbau und das Training von künstlichen neuronalen Netzen müssen Werte für die 
sogenannten Hyperparameter des Netzes gewählt werden. Die Wahl der Hyperparameter kann die 
Klassifikationsgüte der Netze stark beeinflussen. Welche Hyperparameter definiert werden müssen, 
hängt auch von der Art des Netzes ab. Im Folgenden werden die wichtigsten Hyperparameter kurz 


erläutert [Mit97}|GBC16]: 
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e Anzahl der Neuronen einer Schicht: Für jede verdeckte Schicht eines neuronalen Netzes 
muss die Anzahl der enthaltenen Neuronen definiert werden. Die Anzahl der Neuronen 
der Ein- und Ausgabeschichten ergibt sich aus der Form der Eingabe bzw. der Anzahl der 
(Ausgabe-)Klassen. 


e Epochen: Eine Epoche entspricht einem vollständigen Durchlauf durch den Trainingsdatensatz 
(zur Optimierung der Kantengewichte mittels Rückpropagierungsverfahrens). Da ein Durchlauf 
im Allgemeinen nicht ausreicht, um ein gutes Ergebnis zu erzielen, kann definiert werden, 
wie viele Epochen ein Netz (maximal) trainiert werden soll. Das Trainieren über viele 
Epochen ermöglicht eine bessere Justierung der Kantengewichte, erhöht allerdings auch den 
Trainingsaufwand und birgt die Gefahr einer Überanpassung. 


e Stapel-Größe: Ein Stapel (engl. batch) ist die Menge von Trainingsinstanzen, die dem Netz 
präsentiert werden, bevor die Kantengewichte angepasst werden. Über den Hyperparameter 
Stapel-Größe (engl. batch size) kann somit definiert werden, wie viele Trainingsinstanzen 
jeweils entnommen werden sollen. Eine Epoche wird somit in mehrere Stapel unterteilt. 
Kleinere Stapel-Größen führen häufig zu besseren Ergebnissen, steigern den Trainingsaufwand 
allerdings drastisch. 


e Ausfall-Wert: Die sogenannte Verdünnung (engl. dilution) ist eine Technik zur Vermeidung 
einer Überanpassung des Netzes an die Trainingsdaten. Dabei wird ein (zufälliger) Teil 
der Neuronen vor dem nächsten Trainingsdurchgang (Stapel) deaktiviert (das heißt diese 
Neuronen fallen aus). Über den Hyperparameter Ausfall-Wert (engl. drop-out) kann bestimmt 
werden, wie groß der Anteil ausfallender Neuronen im Netz sein soll. Verdünnung ist eine 
effektive Technik zur Vermeidung einer Überanpassung; allerdings werden (meist deutlich) 
mehr Trainingsepochen benötigt, wenn der Ausfall-Wert erhöht wird. 


e Lernrate: Die Lernrate (engl. learning rate) ist ein skalierender Faktor für den Gradientenab- 
stieg. Wird eine geringe Lernrate gewählt, können die Kantengewichte feiner justiert werden, 
allerdings konvergiert das Gradientenabstiegverfahren langsamer; es werden wiederum mehr 
Trainingsepochen benötigt. Wird die Lernrate hingegen zu groß gewählt, konvergiert das 
Verfahren nicht. 


Künstliche neuronale Netze werden hinsichtlich ihrer Netzorganisation üblicherweise in drei 
unterschiedliche Kategorien eingeteilt. Die erste Kategorie bilden einfache vorwärts gerichtete 
neuronale Netze (engl. feed-foward neural network). Diese reichen Informationen von Schicht 
zu Schicht ausschließlich vorwärts gerichtet weiter. Da diese Netzorganisation das Konzept des 
künstlichen neuronalen Netzes in seiner Grundform darstellt, wird diese Kategorie auch häufig 
einfach als künstliche neuronale Netze (engl. artificial neural network, kurz ANN) bezeichnet. Die 
zweite Kategorie bilden faltende neuronale Netze (engl. convolutional neural network, kurz CNN). 
Faltende neuronale Netze bestehen häufig aus einer Vielzahl von Schichten, wobei es spezialisierte 
Schichten gibt, deren Neuronen eine Faltung durchführen; das bedeutet, die Aktivierungsfunktionen 
der Neuronen dieser Schichten entsprechen einer mathematischen Faltungsoperationer|!| Faltende 


10 Faltende neuronale Netze verfügen daher über mindestens einen weiteren Hyperparameter, welcher die Dimension 


der quadratischen Faltungsmatrix (auch Filter- oder Faltungskern, engl. convolution kernel) festlegt. 
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Schichten sind untereinander nicht vollständig verknüpft. Die letzte Kategorie bilden rekurrente 
neuronale Netze (engl. recurrent neural network, kurz RNN). Diese Netzorganisation erlaubt 
Verknüpfungen von Neuronen derselben Schicht oder sogar Rückverbindungen zu Neuronen aus 
vorangegangen Schichten. Auf diese Weise können Reihenfolgeeffekte (das heißt Abhängigkeiten 
von vorherigen Eingaben) besser erfasst werden. 


Zuletzt werden in diesem Abschnitt zwei spezielle Architekturen rekurrenter neuronaler Netze 
näher betrachtet, die häufig für Problemstellung im Kontext der Computerlinguistik eingesetzt 
werden: Netze mit einem sogenannten langen Kurzzeitgedächtnis (engl. long short-term memory, 
kurz LSTM) [HS97}/GSC00} [Gre+17] und Netze mit gesteuerten rekurrenten Einheiten (engl. gated 
recurrent unit, kurz GRU) |Cho+14]. Beide Architekturen lösen ein wesentliches Problem von 


RNNs: Rekurrente neuronale Netze sind zwar in der Lage (durch Verbindung von benachbarten 
Neuronen einer Schicht) Kontexte zu erfassen, der Kontextumfang ist allerdings sehr gering. LSTMs 
ermöglichen hingegen die Erkennung von Zusammenhängen über größere Distanzen (z. B. können 
Wörter mit Wörtern in vorangegangen Sätzen in Verbindung gebracht werden). Hierzu werden 
spezialisierte Neuronen in sogenannten Zellen (engl. cells) angeordnet. Jede Zelle hat einen inneren 
Zustand (definiert durch die Gewichte der Verknüpfungen der enthaltenen Neuronen). Die Zellen 
werden wiederum in einer Kette angeordnet und bilden gemeinsam das Gedächtnis des Netzes. Jede 
Zelle kann Informationen entgegennehmen, weiterreichen und vergessen. Durch die Zustandshaltung 
können Informationen prinzipiell beliebig lang weitergetragen werden. Aus technischer Sicht 
wird der Informationsfluss über spezielle Ein- und Ausgänge gesteuert; diese entsprechen speziell 
verknüpften Neuronen der Zelle. Es gibt zwei Eingänge in eine Zelle: einen, der aktuelle Eingaben 
(beispielsweise ein Wort) entgegen nimmt (engl. input gate), und einen weiteren, der bestimmt, 
welche alten Informationen beibehalten und welche vergessen werden sollen (engl. forget gate). 
Anhand dieser beiden Eingaben und dem inneren Zustand der Zelle, wird eine Ausgabe erzeugt, 
die über eine Ausgabeverknüpfung (engl. output gate) an die nächste Zelle weitergereicht wird. 
Während der Trainingsphase werden die optimalen Gewichte für die gesteuerten Verknüpfungen 
(Ein- und Ausgabe, sowie Erinnerung und Zustand) erlernt. 


GRUs bilden eine moderne Alternative zu LSTMs. Sie verfolgen prinzipiell denselben Ansatz 
mit verketteten Zellen. Allerdings werden nur zwei gesteuerte Verknüpfungen verwendet. Der 
Aktualisierungseingang (engl. update gate) übernimmt die Funktionalitäten des input gate und des 
forget gate bei einem LSTM. Ein weiterer Rücksetzungseingang (reset gate) bestimmt zusätzlich, wann 
(sehr) alte Informationen vergessen werden sollten. Da nur zwei gesteuerte Verknüpfungen verwendet 
werden, ist der Trainingsaufwand bei GRUs geringer. Allerdings sind die Klassifikationsergebnisse 
(je nach Problem) schlechter als bei Verwendung eines LSTMs. 


Sowohl für LSTMs als auch für GRUs existieren bidirektionale Architekturvarianten. Das bedeutet 
nichts anderes, als dass eine zweite Schicht verketteter Zellen eingeführt wird, welche die Eingabe 
in entgegengesetzter Richtung verarbeiten. Die Zellen der beiden Schichten werden wiederum 
untereinander verknüpft. Der Vorteil der Verwendung bidirektionaler Architekturen ist, dass auf diese 
Weise beidseitige Kontexte in die Entscheidungsfindung einbezogen werden können; beispielsweise 
können zur Klassifikation eines Wortes nicht nur vorangegangene Wörter, sondern auch Information, 
die später im Text auftreten, verwendet werden. 
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2.3 Computerlinguistik 


Die Computerlinguistik (engl. computational linguistics), auch bezeichnet als Rechnerlinguistik 
oder Sprachverarbeitung (engl. natural language processing, kurz NLP!) ist die Lehre von der 
Aufstellung und Anwendung von Theorien und Modellen, die natürliche Sprache beschreiben und 


auf Computersystemen ausgeführt werden können [JMO09b]. Die Modelle werden mit dem Ziel ange- 


wendet, natürliche Sprache zu analysieren und zu formalisieren. Untersucht werden Chararkteristika 
natürlichsprachlicher Einheiten (Wörter, Phrasen, Sätze etc.). Hierzu werden Sprachanalyseaufgaben 
definiert, die einzelne Eigenschaften der Sprache untersuchen, wie beispielsweise Wortarten oder 
die Satzstellung. Die Sprachanalysen entsprechen Algorithmen, die auf einem Computersystem 
ablaufen können. Auf diese Weise können Informationen aus natürlichsprachlichen Artefakten, wie 


Textdokumenten oder gesprochenen Äußerungen, gewonnen werden. 


2.3.1 Syntaktik, Semantik und Pragmatik 


Charakteristika natürlicher Sprache können auf unterschiedlichen Ebenen beschrieben werden. Man 
unterscheidet zwischen Syntax, Semantik und Pragmatik. Unter syntaktischen Eigenschaften eines 
natürlichsprachlichen Artefakts versteht man dessen strukturelle Eigenschaften. Die Syntax einer 
Sprache beschreibt dementsprechend das Regelwerk, das bestimmt, wie Wörter (oder größerer 
Einheiten wie Phrasen) zueinander stehen, sprich den grammatikalischen Aufbau von Sätzen. Se- 
mantische Eigenschaften sind hingegen solche, welche die Bedeutung einzelner natürlichsprachlicher 
Einheiten beschreiben. Dies kann die Bedeutung eines Wortes im Kontext sein? oder auch die 
Interpretation eines Satzes. Die Pragmatik beschreibt hingegen die satzübergreifende und äußere 
Bedeutung. Das bedeutet, es werden Bedeutungen untersucht, die sich nur im Kontext eines Diskurses 
(beispielsweise mehrere aufeinanderfolgende Sätze oder ein Dialog) erschließen. Dementsprechend 
betrachtet die Pragmatik Eigenschaften, die Äußerungsabsichten beschreiben. Die drei Ebenen 
können nicht losgelöst voneinander betrachtet werden. Wissen über syntaktische Regeln ermöglicht 
erst die semantische Interpretation von Phrasen und Sätzen. Die Erfassung der Bedeutung eines 
Satzes ist wiederum die Voraussetzung zur Interpretation der Äußerungsabsicht [01172]. 


Aus Sicht der Computerlinguistik bedeutet die Unterscheidung zwischen Syntax, Semantik und 
Pragmatik nicht nur verschiedentliche Betrachtungsebenen, sondern auch zunehmende Komplexität. 
Ein Großteil der Sprachanalysen untersuchen ausschließlich syntaktische Eigenschaften. Die 
Semantik von natürlichsprachlichen Artefakten wird seltener untersucht und die Pragmatik wird nur 
in sehr eingeschränktem Umfang von einigen Speziallösungen betrachtet. Der Grund hierfür ist, 
dass sich syntaktische Eigenschaften sehr gut formalisieren lassen. In den meisten Fällen können 


In der Literatur wird gelegentlich zwischen Computerlinguistik und Sprachverarbeitung unterschieden. Dabei wird 
nicht zwischen unterschiedlichen Konzepten unterschieden; es werden lediglich andere Schwerpunkte gesetzt, 
entweder verstärkt auf das linguistische Fundament von Theorien oder auf die rechnergestützte Verarbeitung. Es 
herrscht aber kein Konsens bei dieser Unterscheidung. Daher wird in dieser Arbeit auf eine Unterscheidung verzichtet; 
beide Begriffe werden stattdessen synonym verwendet. 

Das Wort Bank kann beispielsweise je nach Kontext unter anderem die Bedeutung Sitzgelegenheit, Geldinstitut oder 
Bank-Gebäude einnehmen. 
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syntaktische Modellierungen direkt aus linguistischen Theorien oder Grammatikregeln abgeleitet 
werden. Für die Beschreibung der Semantik und Pragmatik besteht kein derartiges historisch 
gewachsenes Regelwerk, weshalb sich Formalismen erst schrittweise entwickeln. Zumindest für 
semantische Eigenschaften ist es der Computerlinguistik-Forschungsgemeinde in den letzten 
Jahrzehnten gelungen, zunehmend allgemeingültige Modellierungen, wie beispielsweise semantische 
Rollen (siehe Abschnitt 2.3.4.8), zu erstellen. 


2.3.2 Paradigmen der Computerlinguistik 


Seit den Anfängen der Computerlinguistik wurde eine Vielzahl unterschiedlicher Ansätze entwickelt, 
die verschiedene sprachliche Phänomene formalisieren und untersuchen. In den nachfolgenden 
Abschnitten wird eine Auswahl der untersuchten Phänomene und die zugehörigen Ansätze diskutiert. 
Die verschiedenen Verfahren lassen sich hinsichtlich des verfolgten Ansatzes unterschiedlichen 
Paradigmen zuordnen} 


e regelbasierte: Unter den regelbasierten Ansätzen werden Verfahren zusammengefasst, die 
vorrangig ein händisch erstelltes Regelwerk zur Analyse von Eingabedaten verwenden. Diese 
Ansätze werden auch als Heuristik-basiert oder Expertensysteme bezeichnet. 


e statistikbasiert: Statistikbasierte Ansätze sind Verfahren, die vorwiegend verteilungsbasierte 
Analysen verwenden. Hierzu zählen vor allem Verfahren des überwachten und unüberwachten 
maschinellen Lernens (siehe|Abschnitt 2.2). Diese werden anhand von Beispieldaten trainiert, 
wodurch Modelle entstehen; die Modelle können anschließend für die Analyse unbekannter 


Eingabedaten verwendet werden. Statistikbasierte Ansätze werden auch als probabilistisch 


bezeichnet, da sie meist auf probabilistischen Modellierungen basieren. 


e wissensbasiert: Als wissenbasierte Ansätze werden Verfahren bezeichnet, die vorrangig 
Wissen aus Datenbanken oder Modellierungen (wie beispielsweise Ontologien) verwenden, 


um Eingabedaten zu analysieren (siehe [Abschnitt 2.3.15). Der Erkenntnisgewinn gelingt 


bei diesen Ansätzen, indem Teile der Eingabedaten auf Einträge der Wissensdatenbank 
abgebildet und anschließend neue Informationen inferiert werden (z. B. anhand der Struktur 
der Wissensdatenbank). Für die Inferenz werden wiederum regel- oder statiskbasierte Ansätze 
verwendet. 


Die unterschiedlichen Paradigmen haben Vor- und Nachteile; daher sollte je Aufgabe entschieden 
werden, welches Paradigma geeignet ist. Für die meisten Aufgabenstellungen verwendet ein Großteil 


der Verfahren im Kontext der Computerlinguistik heutzutage jedoch statistkbasierte Ansätze |JMO9b]. 


Regelbasierte Ansätze können zunächst einfach konstruiert werden. Zudem werden auch keine Da- 
tensätze mit Beispieleingaben zur Erstellung der Regelsätze benötigt; Regeln können gegebenenfalls 
aus bestehenden linguistischen Regelwerken abgeleitet werden. Die erzeugten Ausgaben sind zudem 
nachvollziehbar. Allerdings werden Domänenexperten zur Erstellung der Regelsätze benötigt. Um 


13 Jurafsky und Martin geben in ihrem Buch Speech and Language Processing einen historischen Überblick und gehen 


dabei auch auf die unterschiedlichen Paradigmen ein, die sich im Laufe der Zeit entwickelt haben [JMO9Db]. 
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gute Analyseergebnisse zu erhalten, muss zudem meist ein umfangreicher und komplexer Regelsatz 
verwendet werden. Dadurch sind regelbasierte aufwendig zu warten und nur schwer zu erweitern. 
Zudem erreichen die erzeugten Ausgaben im Allgemeinen nicht die Qualität von Ansätzen, die den 


beiden anderen Paradigmen zugeordnet werden. 


Statistikbasierte Ansätze sind normalerweise algorithmisch einfacher umzusetzen; es wird kein 
Regelwerk oder ähnliches benötigt. Dadurch können auch semantisch komplexe Analyseaufgaben 
gelöst werden, die sich gegebenenfalls nicht durch Regeln darstellen lassen. So können auch 
nicht-lineare Zusammenhänge gefunden und modelliert werden. Zudem erzielen statistikbasierte 
Ansätze im Allgemeinen die qualitativ besten Ergebnisse. Allerdings werden Beispieldaten im 
ausreichenden Umfang benötigt, deren Beschaffung gegebenenfalls aufwendig sein kann. Überwachte 
Lernverfahren benötigen zudem Musterlösungen, die zunächst (zumeist händisch) erstellt werden 
müssen. Außerdem besteht bei Lernverfahren die Gefahr der Überanpassung der Modelle auf die 
Trainingsdaten. Zusätzlich benötigen statistikbasierte Ansätze meistens viele Ressourcen (Speicher 
und Rechenzeit). Zudem kann normalerweise nicht nachvollzogen werden, wie Analyseergebnisse 


erzeugt wurden. 


Zur Erstellung von wissensbasierten Ansätze werden keine Beispieldaten benötigt. Stattdessen 
wird bereits vorhandenes (und modelliertes) Wissen verwendet. Dadurch sind wissensbasierten 
Ansätze häufig einfach zu erstellen; die Komplexität liegt stattdessen in der Erstellung der Wissens- 
modellierung. Außerdem kann die Qualität der Verfahren automatisch besser werden, wenn die 
Wissensmodellierung erweitert wird. Andererseits können wissensbasierte Ansätze nur Informa- 
tionen verarbeiten, die in der Wissensmodellierung hinterlegt sind. Bei der Erstellung ist zudem 
Wissen über die Struktur und den Inhalt der Wissensmodellierung notwendig. Außerdem verwenden 
auch wissensbasierte Ansätze häufig viele Ressourcen. Die Qualität der erzeugten Ergebnisse ist 
zudem qualitativ meist schlechter als die von statistikbasierten Ansätzen. 


Dementsprechend sind regelbasierte Ansätze dafür geeignet, schnell eine erste Lösung für ein neues 
Problem zu erstellen. Sie eignen sich auch, wenn wenige einfache Regeln genügen, um das Problem 
zu lösen, oder wenn bereits ein Regelsatz existiert. Statistikbasierte Ansätze liefern jedoch fast 
immer die qualitativ besten Lösungen, können aber nur verwendet werden, wenn Datensätze mit 
ausreichendem Umfang zur Verfügung stehen. Zudem muss auch das Problem der potenziellen 
Überanpassung beachtet werden. Bei semantisch komplexen Aufgaben und gleichzeitig zu geringem 
Datenumfang, besteht die Gefahr, dass die Modelle die vorhandenen Beispiele auswendig lernen. 
Wissensbasierte Ansätze stellen eine gute Alternative dar, wenn zwar nur wenige Beispieldaten, 
dafür aber geeignete Wissensmodellierungen vorhanden sind. 


2.3.3 Korpora 


Ein Korpus (Plural Korpora) ist eine (zumeist systematisch angelegte) Sammlung natürlich- 
sprachlicher Artefakte [BCR98]. Die in den Sammlungen enthaltenen Artefakte sind entweder in 
Dokumenten enthaltene Texte oder in Audiodateien gespeicherte gesprochene Äußerungen. Im 


ersten Fall spricht man von einem Textkorpus und im zweiten entsprechend von einem Sprachkorpus. 
Sprachkorpora enthalten neben Audiodateien zumeist zusätzlich zugehörige Transkriptionen. Unter 
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einer Transkription versteht man die verschriftlichte Form einer gesprochenen Äußerung’ | Korpora 
bilden das Rückgrat der modernen Computerlinguistik. Sie dienen der Auffindung und Untersuchung 
neuer sprachlicher Phänomene; davon ausgehend können Analysetechniken für diese Phänomene 
abgeleitet werden. Viel wichtiger ist jedoch, dass Korpora es ermöglichen, natürliche Sprache 
empirisch zu untersuchen. Die Untersuchungsergebnisse bilden wiederum den Ausgangspunkt für 
die Entwicklung von verteilungsbasierten bzw. probabilistischen Verfahren zur Analyse sprachlicher 
Phänomene; Korpora werden wiederum als Datengrundlage für derartige Verfahren genutzt. 


Das Korpus einer Sprache wird eigentlich durch die Gesamtheit aller natürlichsprachlichen Artefakte 
der Sprache gebildet. Da eine vollständige Sammlung im Allgemeinen nicht praktikabel ist, werden 
Korpora stattdessen durch eine repräsentative Auswahl von Artefakten erstellt. Ob eine Auswahl 
repräsentativ ist, hängt vor allem von der späteren Verwendung ab. Soll beispielsweise die Sprache 
eines Autors untersucht werden, ist ein Korpus dann repräsentativ, wenn er alle Werke des Autors 
enthält. Ähnliches gilt für die Untersuchung bestimmter zeitlicher Epochen oder anderweitig 
eingeschränkter Domänen. Für die Computerlinguistik sind sogenannte Auswahlkorpora von 
besonderer Bedeutung. Um diese zu bilden, wird ein Querschnitt durch die Sprache gebildet; 
das bedeutet, es werden Artefakte unterschiedlicher Herkunft, Genres und Autoren gesammelt. 
Einige Auswahlkorpora enthalten außerdem sowohl Textdokumente als auch Audiodateien (bzw. 


Transkriptionen). 


Außerdem unterscheidet man zwischen unbearbeiteten und bearbeiteten Korpora. Unbearbeitete Kor- 
pora enthalten nur die reinen Texte bzw. Audioaufnahmen (und gegebenenfalls Transkriptionen). In 
bearbeiteten Korpora sind die Artefakte mit zusätzlichen Informationen angereichert. Üblicherweise 
werden Etiketten verwendet, um linguistische Charakteristika sprachlicher Einheiten auszuweisen. 
Beispielsweise enthalten Korpora Wortartetiketten, die an einzelne Wörter angebracht werden oder 
Syntax-Bäume, die für ganze Sätze gültig sind (siehe[Abschnitte 2.3.4.3]und 2.3.4.6). 


Bearbeitete Korpora bilden die Grundlage moderner probabilistischer Verfahren der Computer- 
linguistik. Dabei werden die Etiketten als Musterlösung für Klassifikationen mittels überwachter 
Lernverfahren verwendet (siehe[Abschnitt 2.2.1). Das erste weit verbreitete bearbeitete Auswahl- 
korpus war das 1961 veröffentlichte Brown Corpus, welches auch heute noch häufig Anwendung 
findet. Ein weiteres oft genutztes Korpus (insbesondere im Zusammenhang mit Wortart-Etikettierung 
und syntaktischer Zerteilung) ist das WSJ Corpus, das aus Artikeln des Wallstreet Journal besteht. 
Die Penn Treebank ist eine Zusammenstellung bearbeiteter Auswahlkorpora mit einheitlichem 
Auszeichnungsformat (das heißt Etiketten) und beinhaltet unter anderem auch das WSJ Corpus 
und das Brown Corpus. Eine Übersicht über die meisten verfügbaren Korpora bietet das Linguistic 
Data Consortium, welches Sprachressourcen verwaltet, katalogisiert und lizenziert !®] In den letzten 
Jahren rücken auch unbearbeitete Korpora stärker in den Fokus. Diese können unter anderem dafür 


verwendet werden, generische Sprachmodelle zu trainieren (siehe Abschnitt 2.3.17). Der Vorteil 


unbearbeiteter Korpora besteht darin, dass sehr einfach große Sammlungen angelegt werden können, 
da keine manuelle Nachverarbeitung nötig ist (wie beispielsweise das Anbringen von Etiketten). 


4 Weitere Details dazu, wie Audioaufnahmen verschriftlicht werden, befinden sich in|Abschnitt 5.5.2 


Linguistic Data Consortium: https: //www.ldc.upenn.edu/, zuletzt besucht am 24.02.2021. 
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2.3.4 Computerlinguistfließbänder 


Das Ziel der Computerlinguistik ist die explizite linguistische Beschreibung von natürlichsprachlichen 
Artefakten, wobei vorwiegend Textdokumente analysiert werden. Das bedeutet, Texte sollen 
hinsichtlich ihrer Syntax, Semantik und Pragmatik untersucht werden (siehe [Abschnitt 2.3.1); 
gewonnene Informationen werden dem Text als Annotationen hinzugefügt. Die linguistische Analyse 


von Texten erfolgt üblicherweise mithilfe von Computerlinguisikfließbändern (engl. NLP pipel ines)'°| 
Die stufenweise Verarbeitung des Textes in Fließbändern hat sich etabliert, da viele Analysen 
aufeinander aufbauen. Beispielsweise können Wortarten erst dann zugeordnet werden, wenn bereits 
analysiert wurde, welche Zeichenketten einzelne Wörter darstellen; Wortarten sind wiederum 
die Voraussetzung zur Bestimmung der Wortgrundform. Jede Stufe des Fließbands emittiert 
Annotationen (bzw. Etiketten), welche die jeweilig untersuchte linguistische Eigenschaft beschreiben, 
beispielsweise eine Etikette zur Beschreibung der Wortart. Für viele Annotationen existieren 
standardisierte Etikettensätze, sodass es möglich ist, Stufen auszutauschen. Die Analysen der 
meisten Fließbandstufen sind heutzutage statistikbasiert; das bedeutet, sie verwenden überwachtes, 
maschinelles Lernen. Die genau Zusammensetzung der Fließbänder ist nicht festgelegt, auch die 
Reihenfolge kann variieren 7] In den folgenden Abschnitten werden die üblicherweise verwendeten 
Stufen in der gängigen Reihenfolge beschrieben. Die Auswahl und Reihenfolge der vorgestellten 
Stufen orientiert sich am Werkzeug CoreNLP der Natural Language Processing Group der Stanford 
University |Man+14]. 


2.3.4.1 Portionierung 


Die Portionierung (engl. Tokenization) markiert üblicherweise den Beginn der Verarbeitung von 
textuellen Dokumenten in einem Computerlinguistikfließband [WK92} |DMS00} |IMO9b]. Die 
Aufgabe besteht darin, eine Sequenz von Schriftzeichen in syntaktische Abschnitte zu untergliedern. 


Diese Abschnitte werden als sogenannte Token bezeichnet. Sie bilden die kleinste Einheit für die 
syntaktischen (und gegebenenfalls lexikalischen) Analysen in den nachfolgenden Fließbandstu- 
fen. Normalerweise entsprechen die Token den Wörtern und Interpunktionen im Textdokument. 


Abbildung 2.3|zeigt die Portionierung des Satzes „The quick brown fox jumps over the lazy dog.“. 


Die meisten Ansätze zur Portionierung von Textdokumenten sind regelbasier{'*| Unter anderem 
werden reguläre Ausdrücke verwendet; der Analyseprozess wird häufig als endlicher Zustandsautomat 


Die besten Ergebnisse fiir einzelne Sprachanalyseaufgaben werden heutzutage allerdings nicht von Computerlinguis- 
tikfließbändern erzielt. Stattdessen werden verstärkt tiefe neuronale Netzen (siehe|Abschnitt 2.2.2) und vortrainierte 
Sprachmodelle eingesetzt (siehe|Abschnitt 2.3.17). Da die Verwendung (und Erzeugung) dieser Modelle jedoch res- 
sourcenintensiv ist, werden als Grundlage für weiterführende Analysen weiterhin vorwiegend Fließbandarchitekturen 
verwendet. 

Allerdings bestehen häufig Abhängigkeiten, weshalb einzelne Stufen zumindest relativ zueinander angeordnet werden 
müssen. 

Da die Bildung von Token in den meisten Sprachen einem grammatikalischen Regelwerk folgt, kann auch die Analyse 
der Token regelbasiert erfolgen. Dies gilt (bis auf wenige Ausnahmen) insbesondere für die englische Sprache. Für 
Sprachen, bei denen die Identifikation der Token schwieriger ist (z. B. weil sie von der Semantik abhängig ist), wird 


überwachtes maschinelles Lernen verwendet (siehe Abschnitt 22.1) Che+17]. 
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(The [quick] [brown] [fox] (jumps) [over] (the) (lazy) (dog] [.] 


Abbildung 2.3: Portionierung des Satzes „The quick brown fox jumps over the lazy dog.“: Jeder Block ist ein Token. 


For, after all, how do we know that two and two make four? 


Or that the force of gravity works? ] 


Or that the past is unchangeable? | 


If both the past and the external world exist only in the mind, 
and if the mind itself is controllable — what then? 


Abbildung 2.4: Satztrennung fiir einen Ausschnitt aus dem Buch Nineteen Eighty-Four von George Orwell Orw49]: Zur 
Wahrung der Übersichtlichkeit wurde auf die Darstellung der Token innerhalb der Sätze verzichtet. 


implementiert] Zusätzlich verwenden die meisten Ansätze Heuristiken zur Behandlung von 
Ausnahmen, beispielsweise, um zu erkennen, ob es sich bei einem einfachen Anführungszeichen 


um einen Wortbestandteil handelt oder nicht?) oder ob ein Punkt als Satz-beendendes Satzzeichen 
fungiert oder nicht (z. B. Dezimalstellen bei Dezimalzahlen im Englischen). 


2.3.4.2 Satztrennung 


Die zweite Stufe bildet üblicherweise die Satztrennung (engl. sentence splitting, auch bekannt als 
sentence boundary disambiguation, sentence breaking, sentence boundary detection oder sentence 
segmentation) [DMSO0]. Die Aufgabe besteht darin, die zuvor erkannten Token zur nächstgrößeren 
syntaktischen Einheit zusammenzufassen; normalerweise ist diese Einheit ein Satz. Auch bei der 
Satztrennung verfahren die meisten Ansätze regelbasiert. Bei entsprechender Portionierung kann die 
Satztrennung direkt abgeleitet werden: wann immer ein Satz-beendendes Satzzeichen auftritt, wie 
z. B. Punkt (.), Ausrufezeichen (/) oder Fragezeichen (?), wird ein Satz abgeschlossen. Zusätzlich 
verwenden die meisten Ansätze Ausnahmeregeln, beispielsweise falls Satzzeichen gruppiert oder 


als Teil von wörtlichen Reden auftreten. Abbildung 2.4|zeigt die Satztrennung für einen Ausschnitt 
aus dem Buch Nineteen Eighty-Four von George Orwell[Orw49]. 


Neben regelbasierten Ansätzen existieren (auch für das Englische) statistikbasierte Methoden (iiber- 


wachte Lernverfahren, siehe Abschnitt 2.2.1) [KS06]. Diese ermitteln anhand eines zuvor gelernten 


Modells die wahrscheinlichsten Satztrennungen und sind regelbasierten Verfahren insbesondere 
dann überlegen, wenn zuvor keine Portionierung des Textes erfolgt ist. Je nach Anwendungsfall 
können Dokumente weiter unterteilt werden, beispielsweise in Paragraphen oder Kapitel. Gerade 
bei langen Dokumenten ist dies hilfreich, falls beispielsweise später Themen-Etiketten je Paragraph 


vergeben werden sollen (siehe Abschnitt 2.3.9). 


Beispielsweise ist der häufig verwendete PTBTokenizer der Natural Language Processing Group der Stanford 


University als endlicher Zustandsautomat implementiert: https: //nlp.stanford. edu/software/tokenizer | 


shtml, zuletzt besucht am 24.02.2021. 


2° Im Englischen kann zum Beispiel die Zeichenkette Peter’s entweder als ein Token mit Genitivendung oder als zwei 


Token, bestehend aus dem Eigennamen Peter und der Kontraktion ’s des Wortes is interpretiert werden. 
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The quick brown fox jumps over the lazy dog 


Abbildung 2.5: Wortartetiketten für den Satz „The quick brown fox jumps over the lazy dog.“: Die Bedeutung der 


jeweiligen Etiketten kann Tabelle 2.1 (entnommen werden. 


Tabelle 2.1: Auszug der in der Penn Treebank definierten Wortartetiketten TMS03}: Die vollständige Liste befindet sich 


im Anhang in) Abschnitt A.1 


Etikett Bedeutung (englisch) Bedeutung (deutsch) 

DT Determiner Determinativ (Artikel) 

IN Preposition or subordinating conj. Präposition oder unterordnende Konj. 
JJ Adjective Adjektiv, Positiv (Grundform) 

NN Noun, singular or mass Nomen, Singular oder Kontinuativum 


VBZ Verb, 3rd person singular present Verb, 3. Person Singular Präsens 


Sentence-final punctuation Satz-beendendes Satzzeichen 
2.3.4.3 Wortartenerkennung 


Nachdem innerhalb der ersten beiden Stufen die Grundeinheiten (Token, Satze, Paragraphen etc.) 
bestimmt wurden, folgt die syntaktische (und lexikalische) Analyse dieser. Sukzessive werden 
Informationen generiert; die Analyseergebnisse werden für gewöhnlich als Etiketten (engl. tag oder 
label) an die jeweilige Einheit angebracht bzw. annotiert. 


Als erste solche Etikettierungsaufgabe führen die meisten Computerlinguistikfließbänder eine Wort- 
arterkennung (engl. part-of-speech tagging, kurz PoS tagging) durch |GR7 1} Cut+92} JM09b]?"| Das 
Ziel dieser Analyse ist es, je Token ein Etikett zu emittieren, welches die jeweilige Wortart des Wortes 


(bzw. Tokens) angibt. Welche Etiketten zur Verfügung stehen, ist in sogenannten Etikettensätzen 
(engl. tag sets) festgelegt. Zwar gibt es für die Wortarterkennung keinen standardisierten Etiketten- 
satz, der für die Penn Treebank erstellte Satz (siehe|Abschnitt 2.3.3), gilt aber als De-Facto-Standard 
für die englische Sprache und wird von nahezu allen Ansätzen verwendet [TMS03]. 


In [Abbildung 2.5) sind die Wortartetiketten für den bereits in ‚Abschnitt 2.3.4.1] eingeführten 
Beispielsatz dargestellt. Tabelle 2.1|listet die im Beispiel verwendeten Etiketten der Penn Treebank 
samt einer kurzen Beschreibung der jeweiligen Bedeutung. Wie aus dem Beispiel ersichtlich wird, 


werden nicht nur die Wortarten, sondern auch die morphologische Form sowie gegebenenfalls die 


grammatikalische Funktion bestimmt. 


Verfahren zur Wortarterkennung lassen sich grob in drei Kategorien unterteilen, je nachdem welche 


Kriterien die jeweilige Analyse vorwiegend zugrunde legt: 


?! Alternativ wird als erster Schritt eine syntaktische Analyse durchgeführt (siehe Abschnitt 2.3.4.6). Wortartetiketten 
entstehen dann als Nebenprodukt der syntaktischen Zerteilung des Satzes. 
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e Kriterien der Form: Es erfolgt eine lexikalische Analyse. Die Wortart wird entweder direkt 
anhand der Oberflächenform oder mithilfe von Heuristiken, die formbildende Wortteile 
(Wortstamm, Präfixe oder Suffixe) extrahieren, bestimmt. In beiden Fällen erfolgt anschließend 
ein Abgleich mit einem Lexikon. 


e Kriterien der Stellung: Anhand der Wortumgebung wird die jeweilige Wortart abgeleitet. 
Gegebenenfalls können Regeln mithilfe von Schablonen erlernt werden] 


e Kriterien der Auftrittswahrscheinlichkeit: Wortarten werden mithilfe zuvor bestimmter 
Auftrittswahrscheinlichkeiten einer Einheit oder einer Sequenz von Einheiten bestimmt. 


Die Wahrscheinlichkeiten entstammen Modellen überwachter Lernverfahren (siehe |Ab- 
schnitt 2.2.1). Die Modelle werden anhand annotierter Korpora erlernt (siehe|Abschnitt 2.3.3). 


Verfahren, die sich den ersten beiden Kategorien zuordnen lassen, sind vorwiegend regelbasiert; 
Verfahren, die sich der letzten Kategorie zuordnen lassen, sind hingegen statistikbasiert. Heutzutage 
verwenden nahezu alle Ansätze überwachte Lernverfahren, sind also statistikbasiert. Allerdings 
legen die Modelle fast aller Lernverfahren ebenso die Wortform und die Stellung der Einheiten für 
die Klassifikation zugrunde. 


Die besten Verfahren erreichen heutzutage Genauigkeiten (siehe | Abschnitt 2.4.4) von knapp 98%] 
Allerdings ist eine hohe Genauigkeit bei der Bestimmung der Wortarten auch erforderlich, schließlich 


bildet diese die Grundlage aller weiteren Analysen; daher müssen Fehlerfortpflanzungen vermieden 
werden. Die hohen Genauigkeitswerte aktueller Verfahren relativieren sich zudem, wenn man 
betrachtet, wie diese entstehen. Nahezu alle Verfahren werden auf dem Trainingsabschnitt des WSJ 
Corpus trainiert und auf dem Testabschnitt evaluiert (siehe [Abschnitt 2.3.3). Das bedeutet, das 
Evaluationskorpus enthält zwar unbekannte Texte, diese entstammen aber derselben Domäne. Die 


Genauigkeit der Verfahren kann daher bei Verwendung in anderen Domänen deutlich geringer 
ausfallen. Außerdem sind selbst Genauigkeiten von über 97% für die Wortarterkennung laut Manning 
nicht ausreichend, da — betrachtetet man die Genauigkeit auf Satzebene — lediglich 55% bis 57% der 
Sätze keine fehlerhaften Wortartetiketten enthalten [Man11]. 


2.3.4.4 Bestimmung der Wortgrundform 


In der nächsten Stufe üblicher Computerlinguistikfließbänder wird die Grundform der Wörter be- 
stimmt. Wortgrundformen werden gebildet, um nachfolgende Analysen gegebenenfalls generischer 
durchzuführen oder die Wörter im Dokument effizient zu indizieren. Verfahren zur Bestimmung der 


Wortgrundform lassen sie grob in zwei Kategorien einteilen. Die Verfahren der ersten Kategorie 


führen nur eine einfache Wortstammbildung (engl. stemming) durch [Por80]; das bedeutet, sie 


verwenden einfache Heuristiken, die im Wesentlichen regelbasiert Endungen entfernen, um den 


” Ein Beispiel für einen Ansatz, der anhand eines annotierten Korpus Regeln erlernt, ist der sogenannte Brill 


tager Bri92]. 
Siehe hierzu: https: //nlpprogress. com/english/part-of-speech_tagging.htm1| zuletzt besucht am 
24.02.2021 bzw. https://aclweb.org/aclwiki/POS_Tagging (State_of_the_art), zuletzt besucht am 
24.02.2021. 
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The dazzled fox is running towards the shadows 


[the | [dazz1| [fox] [is] [run | [toward | [the | [shadow | [. | 


[the | [dazzle| [fox] [be | [run] [towards | [the] [shadow | | a 


Abbildung 2.6: Wortstammbildung und Lemmatisierung für den Beispielsatz „The dazzled fox is running towards the 
shadows.“: Die gebildeten Wortstämme sind rot (zweite Zeile) und die Lemmata grün hinterlegt (dritte Zeile). 


Wortstamm zu bilden. Verfahren der zweiten Kategorie führen hingegen eine sogenannte Lemmati- 


sierung (engl. /emmatization) durch [JMO9b]; sie bestimmen also je Wort das zugehörige Lemma?*| 


Um das Lemma zu bestimmen, wird für gewöhnlich die Wortart (und gegebenenfalls die Stellung 
des Wortes im Satz) in die Analyse einbezogen. Daher wird die Bestimmung der Wortart und der 
Wortgrundform in vielen Fließbändern in einer Stufe gemeinsam oder in aufeinanderfolgenden 
Stufen durchgeführt [Man+14]. 


Abbildung 2.6 veranschaulicht die Wortstammbildung und Lemmatisierung für den Beispielsatz 


„Ihe dazzled fox is running towards the shadows.“. Wie im Beispiel zu sehen, erzeugt die 
einfache Wortstammbildung teilweise Zeichenketten, die nicht grammatikalisch korrekten Wörtern 
entsprechen; dies Kann gegebenenfalls bei weiterführenden Analysen zu Problemen führen. Darüber 
hinaus können Generalisierungen entstehen, die semantisch falsch sind (beispielsweise werden die 
Wörter university, universe und universal alle auf den Wortstamm univers zurückgeführt, obwohl 
die Wörter semantisch nicht gleich oder ähnlich sind). 


2.3.4.5 Erkennung von Eigennamen 


Die Aufgabe der nächsten Stufe ist die Erkennung von Eigennamen, oder genauer, die Erkennung 
benannter Entitäten (engl. named entity recognition, kurz NER) INSO7}>| Dazu sollen in 
Token (oder zusammenhängende Tokensequenzen) enthaltene benannte Entitäten erkannt und eine 
entsprechende Etikette zugewiesen werden. Auch für die Erkennung von Eigennamen existiert 
kein standardisierter Etikettensatz. Viele Verfahren verwenden den Satz der Vergleichsaufgabe der 
Conference on Computational Natural Language Learning aus dem Jahr 2003 (CoNLL shared Task 
2003) |TD03]; dieser umfasst die folgenden Etiketten: 


e PERSON (der Name einer Person) 
e LOCATION (der Name eines Ortes) 
e ORGANIZATION (der Name einer Organisation) 


e MISCELLANEOUS (sonstiger Name) 


Unter dem Wortlemma versteht man die Oberflächenform eines Wortes, unter der dieses in Lexika gelistet ist. Bei 
Verben ist dies beispielsweise im Englischen die Infinitivform, bei Nomen die Singularform. 
Aufgabenbeschreibung Named Entity Recognition der Message Understanding Conference des Jahres 1995 (MUC-6): 
https ://cs.nyu.edu/grishman/NEtask20.book_1.html, zuletzt besucht am 24.02.2021. 
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Bill Gates , born October 28, 1955 in Seattle ‚was CEO of Microsoft . 
Abbildung 2.7: Eigennamenetiketten für den Beispielsatz „Bill Gates, born October 28, 1955 in Seattle, is was CEO of 
Microsoft.“ aus zwei Etikettensätzen: Die Etiketten in der zweiten Zeile entsprechen dem Satz der Vergleichsaufgabe der 


Conference on Computational Natural Language Learning aus dem Jahr 2003 (CoNLL shared Task 2003) |TD03], die in 
der dritten Zeile dem Satz der Message Understanding Conference aus dem Jahr 1998 (MUC-7) ||CR98]. 


Da diese vier Klassen gegebenenfalls unzureichend sind, um benannte Entitäten geeignet zu 


differenzieren, ist ein zweiter (konkurrierender) Etikettensatz verbreitet] Dieser entstammt der 
Vergleichsaufgabe der Message Understanding Conference aus dem Jahr 1998 (MUC-7) [CR98 
und umfasst die folgenden sieben Etiketten: 


PERSON (der Name einer Person) 


LOCATION (der Name eines Ortes) 


ORGANIZATION (der Name einer Organisation) 


DATE (vollständiger oder teilweiser Datumsausdruck) 


TIME (vollständiger oder teilweiser Zeitausdruck) 


MONEY (monetärer Ausdruck) 


PERCENT (eine Prozentzahl) 


Abbildung 2.7| zeigt einen Beispielsatz, der mit Etiketten aus beiden Etikettensätzen annotiert ist. 
Wie im Beispiel zu sehen, können unter Verwendung des zweiten Etikettensatzes potenziell mehr 


benannte Entitäten annotiert werden. Andererseits fehlt diesem Satz ein Etikett für sonstige Namen, 
wodurch Eigennamen, die dem Modell unbekannt sind, kein Etikett erhalten; bei Verwendung des 
ersten Etikettensatzes kann diesen Entitäten das Etikett MISCELLANEOUS zugewiesen werden. 


Verfahren zur Erkennung von Eigennamen bzw. benannten Entitäten waren ursprünglich regelbasiert 
und verwendeten Heuristiken die auf einer Kombination aus Wortarten, regulären Ausdrücken und 
Signalwörtern basierten. Heutzutage werden ausschließlich überwachte Lernverfahren eingesetzt, 
vor allem neuronale Netze. Mit diesen können aktuell Genauigkeiten von bis zu 94,3% erreicht 
werden (CoNLL shared Task 2003)?”| 


2.3.4.6 Syntaktische Zerteilung 


Ein wichtiger Bestandteil nahezu aller Computerlinguistfließbänder ist die Stufe zur syntaktische 


Zerteilung (engl. (syntactic) parsing, auch bekannt als syntax analysis oder syntactic analysis). Es 


?° Viele Verfahren ermöglichen daher die Auswahl des zu verwendenden Etikettensatzes. 


Siehe hierzu: https ://nlpprogress.com/english/named_ent ity_recognition.html, zuletzt besucht am 
24.02.2021. 
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ROOT 
l 
S 
NP VP 
ee en 
DT JJ JJ NN VBZ PP 
en 
IN NP 
> 
DT JJ NN 


| | l 
The quick brown fox jumps over the lazy dog 


Abbildung 2.8: Syntaxbaum für den Satz „The quick brown fox jumps over the lazy dog.“: Die Bedeutungen der Etiketten, 
die syntaktische Kategorien beschreiben, können [Tabelle 2.2|entnommen werden. 


gibt zwei Ausprägungen syntaktischer Zerteiler, die sich hinsichtlich der Art (bzw. des erzeugten 
Ergebnisses) der Zerteilung unterscheiden. Konstituenzzerteiler (engl. constituency parser) erzeugen 


Syntaxbäume (engl. parse trees) [[Per76}|JMO9b], wohingegen Dependenzzerteiler (engl. dependency 


parser) Abhängigkeitsgraphen generieren (engl. dependency graphs) |JMO9b]. Syntaxbäume und 


Abhängigkeitsgraphen bieten unterschiedliche Sichtweisen auf die Satzsyntax. Während erstere den 
Fokus auf die (hierarchische) syntaktische Struktur des Satzes legen, steht bei zweiteren die Funktion 
der Satzglieder und der Zusammenhang dieser im Vordergrund (weshalb Abhängigkeitsgraphen 
neben der Syntax auch Teile der Semantik des Satzes erfassen können). Da beide Darstellungsformen 
Vor- und Nachteile mit sich bringen, bieten die meisten Computerlinguistikfließbänder beide als 
separate Stufen an. 


Erzeugung von Syntaxbäumen 


Konstituenzzerteiler erzeugen je Satz eine Baumstruktur, die dessen Syntax darstellt. Die Token 
bilden die Blätter des Baumes, intermediäre Knoten überspannen Phrasen und die Wurzel symbo- 
lisiert den gesamten Satz. Das bedeutet, ein Syntaxbaum stellt nur dann eine gültige Zerteilung 
des Satzes dar, wenn alle im Satz enthaltenen Token die Blätter des Baumes (in der korrekten 
Reihenfolge) bilden und die Wurzel dem Startsymbol entspricht. Die Erzeugung der Bäume erfolgt 


grundsätzlich durch die Anwendung einer vorher definierten formalen Grammatik [McE19]. Die 


Form der Grammatik ist dabei prinzipiell beliebig. Eine einheitliche Wahl der Symbole ist jedoch 
vorteilhaft. Als Startsymbol fungiert meist das Etikett ROOT. Die Verwendung der Token als 
Terminalsymbole ergibt sich aus der Zielsetzung. Nichtterminalsymbole der Grammatik sind zum 
einen die Wortartetiketten (siehe/Abschnitt 2.3.4.3) und zum anderen Etiketten, die syntaktische Ka- 
tegorien bzw. Phrasentypen repräsentieren. Für diese zweite Art von Nichtterminalsymbolen gelten 
wiederum die für die Penn Treebank definierten als De-Facto-Standard [TMS03].|Abbildung 2.8 
zeigt einen Syntaxbaum für den bereits in|Abschnitt 2.3.4.1 eingeführten Beispielsatz; Tabelle 2.2 


listet alle im Beispiel verwendeten Etiketten für syntaktische Kategorien. 


Verfahren zur Erzeugung von Syntaxbäumen sind prinzipiell generativ. Mithilfe der Ableitungsregeln 
werden die Bäume sukzessive entweder von unten nach oben (engl. bottom-up) oder von oben nach 
unten (engl. top-down) aufgebaut. Da beide Verfahren Nachteile mit sich bringen, werden stattdessen 
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Tabelle 2.2: Auszug der in der Penn Treebank definierten Etiketten für syntaktische Kategorien |TMS03]: Die vollständige 
Liste befindet sich im Anhang in|Abschnitt A.3 


Etikett Bedeutung (englisch) Bedeutung (deutsch) 


NP Noun phrase Nominalphrase 

PP Prepositional phrase Präpositionalphrase 

S Simple declarative clause Einfacher Deklarativsatz 
VP Verb phrase Verbalphrase 


häufig Mischformen verwendet, wie beispielsweise Left-Corner-Parsing ||RL70]. Grammatiken, 


die ausreichend sind, um einen Großteil der Sätze einer natürliche Sprache wie Englisch zerteilen 
zu können, bestehen aus umfangreichen Regelsätzen. Häufig können verschiedene Ableitungen 
(bzw. Ableitungssequenzen) angewendet werden, um Syntaxbäume zu erzeugen. Das bedeutet, dass 
Zerteilungen in der Praxis meist nicht eindeutig sind. Zwar können die möglichen Zerteilungen 
effizient bestimmt werden?®| allerdings muss unter diesen die wahrscheinlichste gewählt werden, 
um einen eindeutigen Syntaxbaum zu erhalten. Daher sind auch Konstituenzzerteiler heutzutage 
probabilistisch; den derzeitigen Stand der Technik bilden Ansätze, die auf auf neuronalen Netzen 
basieren. Die besten Verfahren erreichen aktuell für das Fı-Maß Werte von über 96%4?9| 


Erzeugung von Abhängigkeitsgraphen 


Abhängigkeitsgraphen bieten eine Sichtweise auf die Syntax eines Satzes, die näher an der Semantik 
ist. Die Graphen beschreiben die grammatikalische Funktion der Phrasen. Das Ziel ist, für jedes 
Prädikat einen gerichteten Graphen aufzubauen; besitzt ein Satz mehrere Prädikate, werden 
diese durch Kanten verbunden. Ausgehend von den Prädikaten werden abhängige Satzglieder, 
wie beispielsweise Subjekte und indirekte Objekte, über typisierte Kanten zugeordnet. Diesen 
untergeordnet werden wiederum Modifikatoren (Adjektive, Artikel etc.). Während zu Beginn 
jeder Ansatz andere Kantentypen (Etiketten) verwendete[ST93} [Lin03], wurde über die Jahre der 
Etikettensatz der Natural Language Processing Group der Stanford University zum De-Facto- 


Standard [dMO8]. Inzwischen konnte ein einheitlicher Standard gebildet werden: Das Projekt 


Universal Dependencies (kurz UD) hat einen allgemeingültigen Etikettensatz für viele Sprachen 


etabliert [Niv+16 Ki Abbildung 2.9\zeigt einen Abhängigkeitsgraphen, der die Kantentypen des 
UD-Projekts verwendet. Die für das Beispiel relevanten Kantentypen (bzw. Etiketten) sind zusammen 


mit einer Kurzbeschreibung der Bedeutung in Tabelle 2.3|aufgeführt. 


Verfahren zur Erzeugung von Abhängigkeitsgraphen verwendeten zunächst vorwiegend spezialisierte 


händisch erstellte Grammatiken [ST93]. Auch bei der Erzeugung von Abhängigkeitsgraphen verwen- 


den moderne Verfahren nahezu ausschließlich neuronale Netze und vortrainierte Sprachmodell¢>!| 


Hierzu werden in der Regel sogenannte Chart-Parser verwendet. Viele Ansätze dieser Art basieren auf dem 
Algorithmus von Cocke, Younger und Kasami [Kas66||You67}|Koz97] 

Siehe hierzu: https://nlpprogress.com english/ const ituency_pars ing .htm1| zuletzt besucht am 
24.02.2021. 

Universal Dependencies: https : //universaldependencies.org/, zuletzt besucht am 24.02.2021. 

Siehe hierzu: https://nlpprogress. com/english/dependency_parsing.html, zuletzt besucht am 
24.02.2021. 
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\ y 


The quick brown fox jump over the lazy dog 


Abbildung 2.9: Ein Abhängigkeitsgraph für den Satz „The quick brown fox jumps over the lazy dog.“: Die Bedeutungen 
der Etiketten können Tabelle 2.3}entnommen werden. 


Tabelle 2.3: Auszug der Kantentypen zur Erzeugung von Abhängigkeitsgraphen, wie sie im Projekt Universal Dependencies 


definiert sind [Niv+1 6). 


Etikett Bedeutung (englisch) Bedeutung (deutsch) 


root Root Wurzel 
amod Adjectival modifier Adjektivischer Modifikator 


case Case marking Kasus-markierendes Element 
det Determiner Determinativ (Artikel) 
nsubj Nominal subject Nominales Subject 


obl Oblique nominal Abhängiges Nomen (z. B. Präpositionalobjekt) 


punct Punctuation Interpunktion 


2.3.4.7 Korreferenzanalyse 


Diese Fließbandstufe analysiert und annotiert natürlichsprachliche Referenzen im zugrundeliegenden 
Dokument. In der Linguistik unterscheidet man verschiedene Formen von Referenzen [Cry11]. Die 
Unterschiede werden anhand der folgenden Beispiele verdeutlicht: 


1. The fox jumps and it runs. 
2. The fox jumps and runs. 


3. The fox looks over there. 


Zunächst unterscheidet man explizite und implizite Referenzen. Erstere werden mithilfe eines explizit 
referenzierenden Ausdrucks gebildet (it in Beispiel 1), wohingegen zweitere nur implizit zwischen 
zwei Satzbestandteilen existieren (z. B. aufgrund von elliptischen Auslassungen, wie in Beispiel 2). 
Zudem unterscheidet man endophorische und exophorische Referenzen. Bei ersteren handelt es sich 
um Referenzen, die einen konkreten Bezugspunkt (Referenten) innerhalb des Textes haben (the fox 
in den ersten beiden Beispielen). Referenzierende Ausdrücke exophorischer Referenzen beziehen 
sich hingegen auf einen Bezugspunkt, der außerhalb des textuellen Diskurses liegt (there in Beispiel 
3). Daher fokussiert sich die Computerlinguistik-Forschungsgemeinde nahezu ausschließlich auf die 
Analyse endophorischer Referenzen | 


”? Es existieren zwar Verfahren zur Erkennung exophorischer Referenzen. Allein mit den Mitteln der Computerlinguistik 


kann allerdings kein Bezugspunkt ermittelt werden. 
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2 Grundlagen 


Korreferenz 


Korreferenz 


Yesterday, Lucy hit Charly witha baseball. He likes her anyway. 


Abbildung 2.10: Zwei Beispielsätze, die zwei Korreferenzen mit unterschiedlichen Referenten und referenzierenden 
Ausdriicken beinhalten. 


Implizite endophorische Referenzen bedürfen häufig einer semantischer Analyse des Textes. Daher 
sind Ansätze dieser Art häufig anwendungsspezifische Speziallösungen. Eine Ausnahme bilden 
elliptische Auslassungen, wie in Beispiel 2. Der implizite Zusammenhang zwischen the fox und 
runs wird durch Dependenzzerteiler mittels einer Kante (nsubj) zwischen den beiden Bestandteilen 
expliziert. 


Als allgemeine Problemstellung der Computerlinguistik ist jedoch lediglich die Analyse expliziter 


endophorischer Referenzen als sogenannte Korreferenzanalyse definiert[Hob78} |JMO9b]. Gibt es 


innerhalb eines Textes einen referenzierenden Ausdruck, der sich auf einen ebenfalls im Text 


befindlichen Referenten bezieht, so bilden diese beiden eine Korreferenz. Im obigen Beispiel 1 


referenziert das Personalpronomen if den Referenten the for? 


Ein weiteres Beispiel mit zwei unterschiedlichen Korreferenzbeziehungen ist in|Abbildung 2.10 


dargestellt. Die referenzierenden Ausdriicke sind jedoch nicht wie in den Beispielen gezeigt auf 
Personalpronomen beschränkt. Prinzipiell können beliebige Nominalphrasen andere Nominalphrasen 
referenzieren. Der ehemalige Präsident der Vereinigten Staaten von Amerika George W. Bush könnte 
beispielsweise durch folgende Nominalphrasen referenziert werden: 


e he 
e the former president of the US 
e the seventy-four-year-old 


+ the old Texan 


Die letzten drei können nicht mit syntaktischen Analysen sondern nur mit Weltwissen als Referenzen 
erkannt werden. Die Referenz the old Texan erfordert zudem Wissensinferenz, denn zum einen 
wurde George W. Bush zwar in Conneticut geboren, ist aber in Texas aufgewaschen, zum anderen 
muss auch das Adjektiv old gedeutet werden. Aufgrund dieser Komplexität beschränken sich die 
meisten Ansätze auf die Erkennung eindeutiger Korreferenzen; das bedeutet, die referenzierenden 
Ausdrücke sind entweder Personalpronomen oder weisen eine ähnliche Oberflächenform auf 


3 Genauer gesagt ist der Referent einer Korreferenz ein benanntes Konzept, hier fox. Alle textuellen Nennungen sind 


referenzierende Ausdrücke, im Beispiel also sowohl it als auch the fox. In der Praxis spielt diese Unterscheidung 
jedoch keine Rolle. Als Referent wird üblicherweise die erste Nennung des Konzepts in Form einer benannten Entität 
angesehen. 


36 


2.3 Computerlinguistik 


(beispielsweise George W. Bush, George Bush und Bush\*4| In der Linguistik wird zudem zwischen 
Anaphern und Kataphern unterschieden. Anaphern stellen einen Rückbezug dar, wie in allen zuvor 
gezeigten Beispielen. Kataphern sind hingegen Vorwärtsreferenzen, wie in ,,/t jumped over the dog. 
It was the fox.“. Da Kataphern sehr selten auftreten, fokussieren sich die meisten Ansätze auf die 
Analyse anaphorischer Referenzen. Dies gilt auch für die Vergleichsaufgaben der Conference on 
Computational Natural Language Learning der Jahre 2011 und 2012 (CoNLL shared Task 2011 
und CoNLL shared Task 2012) zur Korreferenzanalyse [Pra+1 1} Pra+12a]. 


Da es sich bei der Korreferenzanalyse (nicht zuletzt durch die Bereitstellung einer Vergleichsaufgabe) 
um eine allgemeingültige und definierte Aufgabe handelt, ist diese inzwischen Bestandteil vieler 
Computerlinguistikfließbänder. Verfahren zur Analyse von Korreferenzen verwendeten ursprünglich 
Heuristiken, die auf syntaktischen Mustern basierten. Heutzutage sind nahezu alle Verfahren 
probabilistisch, wobei vor allem neuronale Netze verwendet werden. Dabei werden für das Fı-Maß 
inzwischen Werte von über 80% erreicht?>| 


2.3.4.8 Erkennung semantischer Rollen 


Die letzte (hier beschriebene) Stufe des Computerlinguistikfließbands ist für die Erkennung seman- 
tischer Rollen (engl. semantic role labeling, kurz SRL) zuständig |Gru65} Fil66} |Sim73} |JMO9b]. 
Dem Namen nach handelt es sich hierbei um eine Analyse der Semantik des Texts. Allerdings wird 


die Erkennung semantischer Rollen grundsätzlich anhand syntaktischer Eigenschaften durchgeführt; 
das Ziel ist es, die kleinsten zusammenhängenden semantischen Grundeinheiten zu bilden und diese 
miteinander in Beziehung zu setzen. Semantische Rollen bilden dementsprechend lediglich die 
Grundlage weiterer semantischer Analysen. Zur Bildung der Rollen werden syntaktischen Phrasen 


(siehe [Abschnitt 2.3.4.6) semantische Funktionen zugeordnet. Die zugrundeliegende Annahme bei 


der Vergabe der Rollen ist, dass die Semantik einer Aussage (bzw. eines Satzteils) immer anhand des 
Prädikats beschrieben werden kann (unabhängig davon, ob es sich um eine Handlungs-, Ereignis-, 
oder Zustandsbeschreibung etc. handelt). Dementsprechend werden semantische Strukturen gebildet, 
die immer aus genau einer Verbalphrase bestehen. Der Verbalphrase werden Argumente in Form 
anderer Phrasen zugeordnef 6] Das bedeutet, semantische Rollen werden immer gemeinsam pro 
Aussage vergeben. Es kann jedoch vorkommen, das Phrasen mehrere (gegebenenfalls überlappende) 
Rollen in unterschiedlichen semantische Strukturen zugeordnet werden. 


Als De-Facto-Standard für semantische Rollen gilt der Etikettensatz, der im Zuge der Vergleichs- 
aufgaben der Conference on Computational Natural Language Learning der Jahre 2004 und 2005 
(CoNLL shared Task 2004 und CoNLL shared Task 2005) entwickelt wurde [CMO4} CMO5]. Dieser 


34 Begriindet werden kann diese Beschränkung durch folgende Abwägung: Diese eindeutigen Korreferenzen machen 


einen Großteil aller Korreferenzen aus. Können diese richtig erkannt werden, kann also bereits eine hohe Ausbeute 
erzielt werden. Eine Analyse der komplexen Referenzen (die Weltwissen erfordern) birgt die Gefahr, viele falsch 
positive Ergebnisse zu erzeugen, wodurch die Präzision sinkt. 
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Siehe hierzu: https: //nlpprogress.com/english/coreference_resolution. html, zuletzt besucht am 
24.02.2021. 

Damit ähnelt die grundsätzliche Herangehensweise der Erzeugung von Abhänigkeitsgraphen, wie in Abschnitt 2.3.4.6 
beschrieben. Allerdings liegt der Fokus bei semantischen Rollen auf der Semantik der jeweiligen Phrase, während 
Abhängigkeitsgraphen eher die grammatikalische Funktion erfassen. 
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Yesterday , Lucy hit Charly with a baseball 


Abbildung 2.11: Semantische Rollen für den Satz „Yesterday, Lucy hit Charly with a baseball.“: Die Bedeutungen der 
Etiketten können Tabelle 2.4 entnommen werden. 


Tabelle 2.4: Auszug der Etiketten für semantische Rollen CMO4| CM05]: Die vollständige Liste befindet sich im Anhang 


in|Abschnitt A.4 


Etikett Bedeutung (englisch) Bedeutung (deutsch) 


V verb Verb (Prädikat) 

AO agent Handelnder (Agent) 
Al 1° patient or theme 1. Patiens oder Thema 
AM-MNR manner Art und Weise 
AM-TMP temporal Zeitausdruck 


sieht vor, dass das Prädikat jeder semantischen Struktur ein V-Rollen-Etikett erhält, dem Handelnden 
(engl. agent) die Rolle AO zugeordnet wird und das behandelte Objekt oder Thema (engl. patient 
bzw. theme) die Rolle A/ erhält. Weitere Satzobjekte — sofern vorhanden — erhalten die Rollen 
A2 bis Ag] Diese Rollen werden im Folgenden unter dem Begriff A*-Rollen zusammengefasst. 
Zusätzlich können Rollen für modifizierende Argumente (AM*-Rollen) und Referenzen auf andere 
Rollen (R*-Rollen) vergeben werden. Bis auf die V-Rolle sind alle Rollen zur Bildung einer gültigen 
semantischen Struktur optional. 


In[Abbildung 2.11]ist eine semantische Struktur zu einem Beispielsatz dargestellt. Die semantischen 
Rollen sind als Etiketten an gerichteten Kanten dargestellt, die jeweils auf die entsprechende Phrase 
zeigen. Die im Beispiel verwendeten Etiketten des Etikettensatzes und ein Kurzbeschreibung der 
jeweiligen Bedeutung sind in Tabelle 2.4) aufgefiihrt. Erste Verfahren zur Erkennung semantischer 
Rollen orientierten sich stark an der Satzsyntax, entweder indem sie mithilfe von Heuristiken aus 
syntaktischen Strukturen semantische Rollen ableiteten oder indem syntaktische Eigenschaften 
als Eingabe für überwachte Lernverfahren dienten [HTS73} |Nas75; |Bob+77} |GJO2]. Moderne 
Verfahren verwenden hingegen neuronale Netze und vortrainierte Sprachmodelle und erreichen bei 
der Annotation von semantischen Rollen für das Fı-Maß Werte von bis zu 87458] 


2.3.5 Stoppwörter 


Unter Stoppwörtern versteht man in der Computerlinguistik solche Wörter, die keinen oder nur 
einen geringen Beitrag zur Semantik (einer Phrase oder eines Satzes) beitragen. Diese werden 
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Darüber hinaus gibt es die Rolle AA um weitere Objekte zu erfassen (beispielsweise bei langen Aufzählungen). 
Siehe hierzu'https ://paperswithcode.com/sota/semantic-role-labeling-on- ontonotes, zuletzt be- 
sucht am 24.02.2021. 
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Yesterday , Lucy hit Charly with a baseball 
[B-AM-TMP | (0) [B-A0| (B-V) [B-A1] [B-AM-MNR| [I-AM-MNR] [I-AM-MNR| (0) 
[S-AM-TMP | (0) [s-Ao) [s-v| [S-A1) [B-AM-MNR] [I-AM-MNR| [E-AM-MNR] [0] 


Abbildung 2.12: Beispielhafte Verwendung der Formate JOB (grün markiert) und JOBES (rot markiert) für die 
Etikettierung semantischer Rollen. 


in sogenannten Stoppwortlisten gesammelt und können bei Sprachanalysen dafür verwendet 
werden, Stoppwörter nicht zu betrachten und den Fokus stattdessen auf relevante Wörter zu 
legen. Prinzipiell können (je nach Anwendungsfall) beliebige Wörter eine Stoppwortliste bilden. 
Üblicherweise bestehen diese jedoch aus häufig auftretenden Wörtern, die nur strukturierende 
Funktionen übernehmen. Dies sind vor allem Konjunktionen, Artikel und Präpositionen, im 


Englischen also beispielsweise the, is, at, which, und on |JMO9b]. 


Es gibt verschiedene Stoppwortlisten, die unterschiedliche Charakteristika aufweisen. Sie unter- 
scheiden sich zumeist dahingehend, wie restriktiv sie sind, das heißt wie viele Wörter als irrelevant 
gelten; beispielsweise beinhalten manche Listen die Verben be und have und andere nicht. Grund- 
sätzlich muss bei der Verwendung von Standard-Stoppwortlisten beachtet werden, dass je nach 
Anwendungsgebiet Wörter, die normalerweise keine Semantik tragen, im Kontext der zu lösenden 


Aufgabe relevant sein können. 


2.3.6 Die Formate IOB und IOBES 


Die Formate JOB und JOBES werden in der Computerlinguistik dazu verwendet, Token zu zu- 
sammenhängenden Bereichen (Phrasen, Teilsätze oder Sätze) zusammenzufassen und mit einem 
gemeinsamen Etikett zu versehen. Etiketten zur Auszeichnung sprachlicher Charakteristika werden 
üblicherweise an Token angebracht, da diese die kleinste zusammenhängende sprachliche Einheit 
bilden (siehe Abschnitt 2.3.4.3). Mithilfe der beiden Formate können Etiketten für zusammenhän- 
gende Bereiche vergeben werden. Technisch gesehen wird weiterhin ein Etikett pro Token vergeben; 


die Etikettenbereiche entstehen durch die Verwendung spezieller Präfixe, die durch die Formate 
vorgeben werden. Die Präfixe übernehmen die folgenden Funktionen: 

e B: markiert den Beginn eines Bereichs 

e I: zeigt an, dass ein Token innerhalb eines Bereichs liegt 

e O: zeigt an, dass ein Token zu keinem Bereich gehört 

e E: markiert das Ende eines Bereichs 


e S: zeigt an, dass ein Bereich nur aus genau einem Token besteht 


Die beiden Formate unterscheiden sich dahingehend, ob das Ende eines Bereichs sowie einelementige 


Bereiche explizit modelliert werden oder nicht. Abbildung 2.12|zeigt die Verwendung der Formate 


für die Etikettierung semantischer Rollen anhand des bereits aus |Abschnitt 2.3.4.8] bekannten 


Beispiels. 
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... the quick brown fox ... 


Abbildung 2.13: Grundlegender Aufbau von Systemen zur automatischen Spracherkennung: Die Darstellung entspricht 
einer verallgemeinerten Variante der von Jurafsky und Martin vorgestellten Architektur für ein ASR-System, das auf dem 
Hidden-Markov-Modell basiert [JMO9b]. 


2.3.7 Automatische Spracherkennung 


Systeme zur automatischen Spracherkennung (engl. automatic speech recognition, kurz ASR) 
überführen ein Audiosignal in eine textuelle Form, das heißt in eine Sequenz von Wörtern 


bzw. Token [JMO09b]. Diese Aufgabe ist insofern herausfordernd, als jeder Sprecher Wörter 


anders ausspricht und ein ihm eigenes Vokabular verwendet. Daher unterteilen sich Ansätze 
zur automatischen Spracherkennung seit jeher in solche, die sprecherspezifisch und solche, die 
sprecherunabhängig sind. Sprecherspezifische Verfahren werden auf einen Sprecher (bzw. eine 
Gruppe von Sprechern) angepasst, um entweder die Qualität der Überführung in Textform zu 
erhöhen oder um Ressourcen zu sparen. Sprecherunabhängige Verfahren können hingegen potenziell 
Äußerungen beliebiger Sprecher, welche dieselbe Sprache sprechen, verschriftlichen. Darüber hinaus 
gibt es hybride Ansätze, die einen sprecherunabhängigen Ansatz sukzessive auf einen spezifischen 
Sprecher anpassen. 


Systeme zur automatischen Spracherkennung werden seit Beginn der 1950er Jahre entwickelt. 
Zur Modellierung der Problemstellung wird seit jeher das Rausch-Kanal-Modell von Shannon 
zugrunde gelegt [|Sha48]. Dabei wird das akustische Signal als verrauschte Variante der textuellen 


Wortsequenz aufgefasst. Einer Forschungsgruppe der Bell Laboratories gelang es 1952 das erstes 


System zur automatischen Spracherkennung umzusetzen [DBB52]; dieses konnte sprecherspezifisch 


die Ziffern Null bis Neun erkennen. Moderne Verfahren verwenden statistikbasierte Ansätze, wobei 
unterschiedliche Lernverfahren zum Einsatz kommen. 


Der grundsätzliche Aufbau fast aller Systeme zur automatischen Spracherkennung, wie in |Ab- 
bildung 2.13/dargestellt, ist indes gleich. Es werden zwei unterschiedliche Modelle benötigt, die 
vorab anhand von Korpora trainiert werden: Zum einen wird ein Sprachmodell verwendet, wel- 


ches einerseits das bekannte Vokabular beinhaltet (z. B. durch Verwendung eines Lexikons) und 
anderseits Häufigkeiten von Wortfolgen (z. B. als N-Gramme) modelliert. Zum anderen wird ein 
Akustikmodell verwendet, das Abbildungen von Audiosignalen auf Phoneme beinhaltet. Die beiden 
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Modellierungen werden in einem Dekodierer zusammengeführt, beispielsweise indem eine durch 
das Akustikmodell erzeugte Phonemsequenz durch das Sprachmodell auf die wahrscheinlichste 
Wortfolge abgebildet wird. Verfahren unterscheiden sich hauptsächlich in der Funktionsweise des 
Dekodierers. Ein akustisches Signal wird von einem System zur automatischen Spracherkennung 
wie folgt verarbeitet: Zunächst wird das akustische Signal vorverarbeitet; das bedeutet, das Signal 
wird digitalisiert und Eigenschaften, wie Amplitude, Frequenz etc. in eine Darstellung überführt, 
die vom Akustikmodell verarbeitet werden kann. Im Dekodierer werden die beiden Modelle wie 
zuvor beschrieben auf dieses Signal angewendet; das Ergebnis ist eine Tokensequenz; wobei die 
meisten Systeme mehrere Hypothesen mit zugehörigen Konfidenzen erzeugen, da zum Dekodieren 
üblicherweise probabilistische Ansätze verwendet werden. 


Die durch ein System zur automatischen Spracherkennung erzeugte Wortsequenz, kann durch 
ein Computerlinguistkfließband weiterverarbeitet werden (siehe|Abschnitt 2.3.4). Allerdings muss 
beachtet werden, dass eine verschriftlichte gesprochene Äußerung andere Eigenschaften hat als 


ein geschriebener Text. Gesprochene Sprache folgt im Allgemeinen weniger strikt grammatikali- 
schen Regeln. Das bedeutet, gesprochene Äußerungen enthalten häufig nur Satzfragmente. Häufig 
vertauschen Sprecher auch Satzteile in einer Weise, die nicht konform mit der Grammatik der 
Sprache ist. Außerdem enthält spontane gesprochene Sprache häufig sogenannte Disfluenzen. Als 
Disfluenzen bezeichnet man Unterbrechungen im Sprechfluss, die beispielweise durch das Füllen 
von (Denk-)Pausen mit Hesitationswörtern wie uhm, ehm etc. oder durch die (Selbst-)Korrektur von 


vorangegangen Äußerungen entstehen (siehe Abschnitt 7.1). Zuletzt werden bei der automatischen 
Spracherkennung normalerweise keine Satzzeichen erzeugt. Aus diesen Gründen können Sprach- 
analyseverfahren, die für ihr Vorgehen grammatikalisch korrekte vollständige Sätze annehmen bzw. 
deren Modelle auf solchen trainiert wurden, unter Umständen nicht verwendet werden bzw. erzeugen 
diese deutlich schlechtere Ergebnisse. 


2.3.8 Disambiguierung von Wortbedeutungen 


Der wesentliche Unterschied von natürlichen Sprachen gegenüber formalen Sprachen ist ihre 
inhärente Mehrdeutigkeit [JMOSb]. Die meisten natürlichen Sprachen sind sowohl hinsichtlich ihrer 
Syntax, als auch Semantik und Pragmatik mehrdeutig (siehe|Abschnitt 2.3.1). Während syntaktische 
Mehrdeutigkeiten meist über Regelsätze erfasst werden können, stellen semantische und pragmatische 


Mehrdeutigkeiten bis heute die wesentlichen Herausforderungen der Computerlinguistik dar. 


Bei der Auflösung von Mehrdeutigkeiten orientieren sich die meisten Ansätze an der menschlichen 
Herangehensweise. Menschen nutzen zur Auflösung sprachlicher Mehrdeutigkeiten den Kontext 
einer Aussage (umgebende Wörter, vorangegangene Sätze, erläuternde Paragraphen, Überschriften 
usw.). Diese Beobachtung machte bereits 1957 der britische Linguist John Rupert Firth; er leitete 


daraus folgende Proklamation ab [Fir57]: 


„You shall know a word by the company it keeps”) 


*° Zu deutsch: Du sollst ein Wort anhand seiner Umgebung (er)kennen/verstehen! 
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Geldinstitut 


Bank-Gebäude 


Er sitzt auf einer Bank am Wegesrand. 


Abbildung 2.14: Disambiguierung des Wortes Bank in einem Beispielsatz anhand eines Etikettensatzes für Bedeutungen: 
Die gewählte Etikette ist grün hervorgehoben. 


In Anlehnung an diese Aussage konstruiert Lin folgendes Beispiel, um seinen Ansatz zur Bestimmung 


von Wortähnlichkeiten zu motivieren [||Lin98 W 


A bottle of rezgüino is on the table. 
e Everybody likes tezgiiino. 
e Tezgüino makes you drunk. 


e We make fezgiiino out of corn. 


Lin argumentiert, dass die Bedeutung des unbekannten Wortes von Menschen intuitiv aus dem 
Kontext abgeleitet werden kann; ohne weitere Hilfestellungen können Menschen aus diesen vier 
Beispielen ableiten, dass es sich bei rezgüino um eine Art alkoholisches Getränk handeln muss. 
Dieses Gedankenkonstrukt lässt sich auch auf mehrdeutige Wörter übertragen. Beispielsweise lässt 
sich aus dem folgenden Beispielsatz die Bedeutung des Wortes Bank als Sitzgelegenheit eindeutig 
bestimmen, obwohl das Substantiv Bank viele unterschiedliche Bedeutungen hat: „Er sitzt auf einer 
Bank am Wegesrand.“ 


Diese Form der semantischen Mehrdeutigkeit (bzw. die Auflösung ebendieser) bezieht sich aus- 
schließlich auf die Bedeutung einzelner Wörter im sprachlichen Kontext. Sie stellt damit die 
einfachste Form semantischer Mehrdeutigkeiten dar. In der Computerlinguistik ist die Auflösung 
von Wortmehrdeutigkeiten (engl. Word Sense Disambiguation, kurz WSD) die einzige formalisierte 
Aufgabe zur Mehrdeutigkeitsauflösung. Hierzu wurden verschiedene Vergleichsaufgaben definiert, 


unter anderem SemEval und Senseval, die jeweils in unterschiedlichen Versionen vorliegen“! [ECO 1} 
MCKO04 LH07}[NJV 13} MNI5]. 


Bei der Auflösung von Wortmehrdeutigkeiten unterscheidet man zwei unterschiedliche Aufga- 
ben [JMO9b]: Die erste erfordert die Disambiguierung einer (kleinen) festen Menge von Wörtern, 
bezeichnet als lexical sample task. Die zweite fordert hingegen die Auflösung von Mehrdeutigkeiten 


bei allen (Inhalts-)Wörtern eines Textes, bezeichnet als all-words task. In beiden Fällen soll jedoch 
für jedes zu disambiguierende Wort eine Etikette vergeben werden, welche die Bedeutung des 


Wortes beschreibt. Abbildung 2.14|veranschaulicht diese Aufgabe anhand des zuvor eingeführten 
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Das Beispiel ist eine abgewandelte Variante des bereits 1975 von Nida konstruierten |Nid15]. 
41 


Die Versionen unterscheiden sich einerseits in den zugrundeliegenden Textkorpora und zum anderen in den verwendet 
Etikettensätzen. 
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Beispielsatzes. Die Form der Etiketten ist nicht einheitlich. Einige Ansätze verwenden einen eigens 
definierten Etikettensatz, wodurch sie nicht mit anderen Verfahren vergleichbar sind. Andere 
Ansätze verwenden die Etikettensätze, die durch die zuvor genannten Vergleichsaufgaben festgelegt 


werden. Sehr verbreitet ist die Verwendung von Synsets aus WordNet (siehe Abschnitt 2.3.15.1) 


zur Beschreibung von Wortbedeutungen. Die Aufgabenstellung des lexical sample task findet 
heutzutage kaum mehr Beachtung. Moderne Ansätze betrachten nahezu ausschließlich die Disambi- 
guierung aller Wörter. Die Schwierigkeit dieser Aufgabe besteht darin, dass einzelne Bedeutungen 
vergleichsweise selten auftreten und die Etikettensätze sehr umfangreich sind (beispielsweise im 
Vergleich zur Wortarterkennung, siehe [Abschnitt 2.3.4.3). Aufgrund dieser Eigenschaften eignen 


sich intuitiv Verfahren, die auf überwachten maschinellen Lernen basieren, nicht für diese Aufgabd*?| 


Nichtsdestotrotz stellen diese heutzutage den Stand der Technik daf] Darüber hinaus gibt es einige 
wissensbasierte Ansätze, die sich beispielsweise die baumartige Struktur der Relationen in WordNet 


zunutze machen. 


2.3.9 Themen-Extraktion, -Modellierung und -Etikettierung 


Die Begriffe Themen-Extraktion (engl. topic extraction), Themen-Modellierung (engl. topic 
modelling) und Themen-Etikettierung (engl. topic labeling) bezeichnen sich überlappende For- 
schungsgebiete. Sie befassen sich mit der Problemstellung, für natürlichsprachliche Einheiten 
Themen zu bestimmen. Die betrachteten Einheiten sind beispielsweise einzelne Sätze, Paragraphen, 
Dokumente oder Dokumentsammlungen. Den natürlichsprachlichen Einheiten werden Themen in 
Form kurzer (wiederum natürlichsprachlicher) Beschreibungen zugeordnet. Diese Beschreibungen 
bestehen (je nach Verfahren) entweder aus einzelnen Schlagwörtern, einer Wortmenge oder einer 
kurzen Phrase und sollen den Inhalt der betrachteten Einheit möglichst treffend zusammenfassen. 
Der Großteil der Ansätze, die den drei Forschungsgebieten zugeordnet werden können, betrachtet 
ausschließlich geschriebene Sprache. Themenbeschreibungen dienen in der Computerlinguistik als 
Ausgangspunkt für weiterführende semantische Analysen. Beispielsweise können sie verwendet 
werden, um eine automatische Zusammenfassung zu erzeugen (engl. automatic text summarization). 
Themen werden weiterhin unter anderem für die Verschlagwortung, Katalogisierung und Indexierung 


von Dokumenten bzw. Dokumentmengen verwendet. 


Die drei Forschungsgebiete unterscheiden sich hinsichtlich der konkreten Herangehensweisen zur 
Erzeugung von Themen. Die Unterschiede werden nachfolgend anhand eines Textdokuments als 
natürlichsprachliche Einheit beschrieben. Verfahren, die der Themen-Extraktion zugeordnet werden 
können, erzeugen Themen, indem sie relevante Wörter direkt aus dem Dokument entnehmen. 
Relevante Wörter können beispielsweise einfach häufige Wörter oder Wörter mit einem hohen 


® Überwachte Lernverfahren können (im Allgemeinen) nur Klassen zuordnen, die bereits während der Trainingsphase 


bekannt sind. Aufgrund der genannten Eigenschaften steht jedoch zu erwarten, dass während des Training nicht alle 
bekannten Bedeutungen aufgetreten sind. Außerdem gelingt die Klassifikation besser, wenn mehr Beispiel derselben 
Klasse während des Trainings betrachtet werden können; auch dies ist aufgrund von selten auftretenden Bedeutungen 
unwahrscheinlich. 

Siehe hierzu https: //nlpprogress.com/english/word_sense_disambiguation.html, zuletzt besucht am 
24.02.2021. 
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Informationsgehalt sein. Die Themen bestehen meist aus Wortmengen, seltener aus Phrasen. In 
jedem Fall kommen sie wortwörtlich im Dokument vor. Themen-Extraktionsverfahren erzeugen 
zudem meist Themen für das gesamte Dokument, es werden keine einzelnen Themen für einzelne 
Abschnitte vergeben. Bei der Modellierung von Themen besteht die Aufgabe darin, Abschnitte 
im Dokument zu bestimmen, die thematisch zusammenhängen. Das bedeutet, derartige Verfahren 
untergliedern Dokumente, indem sie thematisch zusammenhängende Bereiche bilden, diese aber 
nicht benennen, also keine Beschreibung erzeugen. Diese Bereiche können im Dokument verteilt und 
damit unzusammenhängend sein. Verfahren aus dem Bereich der Themen-Etikettierung bestimmen 
für zuvor erzeugte Themen-Modelle Beschreibungen in Form von sogenannten Themen-Etiketten. 
Das bedeutet, für die einzelnen thematisch zusammenhängenden Bereiche wird je eine Etikette 
emittiert. Hierzu werden unterschiedliche Verfahren verwendet. Entweder werden ähnlich wie bei 
der Themen-Extraktion relevante Wörter direkt aus den jeweiligen Bereichen extrahiert oder es 
werden externe Themen-Etiketten vergeben. Externe Themen können unter anderem als Themenliste 
vorgegeben werden, oder es können Konzepte aus Wissensdatenbanken entnommen werden. Einige 


Ansätze verwenden beispielsweise Artikelnamen aus Wikipedia (siehe [Abschnitt 2.3.15.5) als 


Etiketten. In jedem Fall sind diese Themen-Etiketten nicht dem betrachteten Dokument entnommen. 
Die Begrifflichkeiten werden in der Literatur uneinheitlich verwendet. Insbesondere werden Themen- 
Extraktion und Themen-Modellierung häufig gleichgesetzt. 


2.3.10 Dialogsysteme 


Dialogsysteme sind seit jeher eines der wichtigsten Anwendungsfelder der Computerlinguis- 


tik [JMO9a]. Sie sind nicht nur für Interesse für die Forschungsgemeinde, auch die Industrie 


kann sie direkt (als Produkt) vermarkten. Virtuelle Assistenten oder sprachgesteuerte Navigati- 
onssysteme sind letztlich nichts anderes als mit Hintergrundwissen ausgestattete Dialogsysteme. 
Während sich die Forschung in den letzten Jahren zunehmend auf die Verwendung von statisti- 
schen Methoden zur Umsetzung von Dialogsystemen fokussiert, ist der Großteil der vermarkteten 


Systeme regelbasiert [TD11]. Als statistische Methoden werden hauptsächlich teilweise beob- 


achtbare Markov-Entscheidungsprozesse (engl. partially observable Markov decision processes, 
kurz POMDP) [RPTO0} |TSY08} |You+10], bestärkendes Lernen [Ga8+14] und neuronale Net- 
ze [Ser+16}|Wen+17;|Li+16] eingesetzt. Die von der Industrie favorisierten regelbasierten Ansätze 


untergliedern sich hingegen weiter in Aufruffluss-basierte (engl. call flow) |McT98} PPie+01 
Rahmen-Semantik-basierte (engl. frame semantic) [SP00], Agenda-basierte [RX99} BRO3] und 
Informationsstand-basierte (engl. information state) Ansätze [Mor+14]. Diese strikte Trennung 
der verwendeten Techniken zwischen Industrie und Forschung lässt sich auf die unterschiedlichen 


Rahmenbedingungen der jeweiligen Felder zurückführen. Während seitens der Forschung vor 
allem neue Techniken entwickelt und Grundlagen für zukünftige Entwicklungen gelegt werden, 
erfordert die Entwicklung vermarktbarer Produkte seitens der Industrie robuste sowie vorhersag- 
und nachvollziehbare Lösungen. 


Die Architektur der meisten Dialogsysteme — unabhängig davon, ob sie einen statistik- oder 


regelbasierten Ansatz verfolgen — entspricht dem in|Abbildung 2.15|dargestellten Schema. Übli- 


cherweise bestehen Dialogsysteme dementsprechend aus den folgenden Modulen: (automatische) 
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g» 


Abbildung 2.15: Grundlegende Architektur der meisten Dialogsysteme nach Jokinen und McTear [JM09a]. 


Spracherkennung, Sprachverständnis, Dialog-Management, Antworterzeugung und Sprachsyn- 
thes g4 Die Spracherkennung überführt akustische Signale in eine Phonem- oder Wortsequenz 
(siehe[Abschnitt 2.3.7). Die erzeugten Transkriptionen werden an das Sprachverständnis-Modul 
weitergereicht, welches die Äußerungen interpretiert. Üblicherweise wird an dieser Stelle die Wort- 


sequenz in eine logikbasierte Darstellung überführt. Das Dialog-Management-Modul interpretiert 
anschließend die Ergebnisse des Sprachverständnis-Moduls. Die Interpretation fußt zumeist auf der 
letzten sowie vorangegangenen Äußerungen und - sofern verfügbar — zusätzlichen Informationen, 
wie situativem Kontext oder Weltwissen. Wie dieser Interpretationsprozess genau abläuft, ist der 
wesentliche Unterschied zwischen verschiedenen Dialogsystem-Ansätzen. Aber unabhängig davon, 
ob ein Ansatz neuronale Netze zur Interpretation nutzt oder Agenda-basiert ist, die zugrundelegende 
Idee ist wie folgt: Das Dialog-Management hat einen internen Zustand, der von vorherigen Eingaben 
und weiteren Einflussfaktoren abhängt. Eintreffende Äußerungen verändern den internen Zustand 
und lösen eine Reaktion des Systems aus. Im Antworterzeugungs-Modul wird die Systemreaktion 
verbalisiert; das bedeutet, es wird wieder eine natürlichsprachliche Wortsequenz erzeugt. Viele 
Ansätze nutzen hierfür Satzschablonen. Zuletzt wird im Sprachsynthese-Modul die Wortsequenz in 
ein Audiosignal überführt und ausgegeben. 


Dialogsysteme werden hinsichtlich ihres Verhaltens gegenüber dem Nutzer in die folgenden drei 


Kategorien eingeteilt: 


e System-initiativ: Das System tritt aktiv in den Dialog mit dem Nutzer ein. Das bedeutet, das 
System beginnt den Dialog, indem der Nutzer angesprochen wird, beispielsweise durch eine 
Begrüßung wie folgende: „Hello! How may I help you?“ Auch im weiteren Gesprächsverlauf 
bleiben derartige Systeme aktiv, beispielsweise durch weitere Nachfragen wie diese: „Would 
you like anything else?“ 


e Nutzer-initiativ: Das System bleibt vorwiegend passiv. Es tritt erst in den Dialog mit dem 
Nutzer ein, wenn dieser das System anspricht, beispielsweise durch eine Anrede wie folgende: 
„Hey System!“ Auch im weiteren Gesprächsverlauf, überlässt das System dem Nutzer die 
Initiative. Das bedeutet, das System beantwortet lediglich die Fragen des Nutzers und stellt 
üblicherweise keine Rückfragen. 


# Die Unterscheidung nach statistik- oder regelbasiert manifestiert sich zumeist nur im Dialog-Management. 
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e gemischt initiativ: Das Verhalten des Systems wechselt je nach Gesprächssituation zwischen 
aktiv und passiv. Es gibt unterschiedliche Ausprägungen der gemischten Alternative. Manche 
Systeme sind zunächst passiv, stellen aber Fragen, um das Gespräch fortzusetzen. Andere sind 
zunächst aktiv, werden aber passiv, sobald sie das Anliegen des Nutzers für erledigt erachten. 
Zudem gibt es Unterschiede hinsichtlich der Verteilung der aktiven und passiven Anteile. 


2.3.11 Verständnis natürlicher Sprache 


Das Forschungsgebiet, das sich dem Verständnis natürlicher Sprache widmet (engl. natural language 
understanding, kurz NLU), ist ein Teilgebiet der Computerlinguistik und befasst sich mit der Aufstel- 
lung von Theorien und Modellen zur Darstellung von Bedeutungen natürlichsprachlicher Einheiten 


sowie Verfahren zur Analyse von Bedeutung [A1195]. Unter anderem wird untersucht, welche Arten 


von Bedeutungen in natürlicher Sprache enthalten sein Können, wie sich diese formalisieren und 
(maschinell verarbeitbar) darstellen lassen und wie Bedeutungen aus natürlichsprachlichen Artefak- 
ten extrahiert (und benannt) werden können. Das Forschungsgebiet befasst sich dementsprechend 
vorrangig mit der Semantik und Pragmatik natürlichsprachlicher Artefakte (siehe [Abschnitt 2.3.1). 


Tiefes Sprachverständnis 


Das Ziel der meisten Ansätze ist nicht, das menschliche Sprachverständnis allgemeingültig nachzu- 
bilden®] Stattdessen wird durch ein partielles Verständnis einiger Aspekte der natürlichen Sprache 
versucht, die Grundlage für weiterführende Anwendungen, die Sprachverständnis benötigen, zu 
bilden. Wie umfangreich das partielle Verständnis eines Ansatzes ist, lässt sich im Wesentlichen 
anhand zweier Dimensionen bemessen. Die erste Dimension ist die Breite des Sprachverständnisses; 
das bedeutet, wie allgemein können Bedeutungen aus unterschiedlichen (inhaltlichen) Domänen 
erfasst werden (das heißt wie groß ist das unterstützte Vokabular). Die zweite Dimension ist die Tiefe; 
das bedeutet, wie genau (und aussagekräftig) können einzelne Bedeutungen beschrieben und erfasst 


werden. Semantische Rollen, wie in’ Abschnitt 2.3.4.8/beschrieben, bieten beispielsweise ein sehr brei- 


tes Sprachverständnis; die vergleichsweise generischen Rollen beschreiben die Bedeutungseinheiten 
allerdings nicht in der Tiefe. Je breiter und tiefer das Verständnis der Sprache, desto umfassender ist 
es. In der Literatur wird nahezu ausschließlich der Begriff tiefes Sprachverständnis (engl. deep natu- 
ral language understanding) verwendet, obwohl zumeist umfassendes Sprachverständnis gemeint ist. 
Aus diesem Grund wird in dieser Arbeit auch der Begriff tiefes Sprachverständnis in der Bedeutung 
des umfassenden Sprachverständnisses verwendet. Eine Vergrößerung des Sprachverständnisses in 
Richtung einer der beiden Dimensionen ist im Allgemeinen äußerst aufwendig, weshalb sich die 
meisten Ansätze darauf beschränken, das Sprachverständnis gerade so weit zu entwickeln, wie es 
weiterführende Anwendungen benötigen. Auch aus diesem Grund existieren heutzutage viele sehr 
gute Speziallösungen, aber keine, die allgemeines Sprachverständnis erreicht. 


4 Diese Zielstellung kann zum aktuellen Stand der Technik noch nicht erreicht werden. Gelänge es jedoch ein System 


zu erstellen, welches über allgemeines Sprachverständnis verfügt, könnte dieses den Turing-Test bestehen (Tur50]. 
Der von Alan Turing vorgeschlagene Test sieht vor, die (künstliche) Intelligenz eines Computersystems anhand 
dessen Sprachvermögens wie folgt zu bemessen: Könnte ein Mensch nach einem Dialog mit dem Computersystem 
und einem weiteren menschlichen Gesprächspartner nicht entscheiden, welches von beiden das Computersystem ist, 
so besteht das System den Test. 
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Anwendungsgebiete 


Viele Anwendungen verwenden heutzutage Sprachverständnis-Komponenten. Beispielsweise bein- 
halten nahezu alle Dialogsysteme eine Einheit für Sprachverständnis (siehe|Abschnitt 2.3.10) Diese 
wird benötigt, um die Äußerung des Nutzers deuten zu können und eine angemessene Antwort geben 


zu können. Auch in der maschinellen Übersetzung wird verstärkt auf Sprachverständnis gesetzt; 
schließlich kann die exakte Übersetzung von der Bedeutung eines Wortes, einer Phrase oder eines 
gesamten Satzes abhängen. Ansätze zum Sprachverständnis werden auch verwendet, um Dokumente 
und Dokumentsammlungen (semantisch) zu kategorisieren und deren Inhalt zu analysieren. 


Auch Systeme zur Programmierung mit natürlicher Sprache (siehe|Kapitel 3) müssen die Bedeutung 


natürlichsprachlicher Programmbeschreibungen verstehen, um daraus programmatische Strukturen 
synthetisieren zu können. Die Deutung natürlicher Sprache als Programm stellt insofern eine 
Herausforderung dar, als dass sich natürliche Sprachen deutlich von formalen Sprachen (wie 
Programmiersprachen) unterscheiden. Der wesentlichste Unterschied ist die inhärente Mehrdeutigkeit 
natürlicher Sprache; je nach Kontext können sich natürlichsprachliche Einheiten (wie Wörter, Phrasen 
oder Sätze) auf unterschiedliche Konzepte beziehen] In Programmiersprachen werden Konzepte 
(wie beispielsweise Klassen und Methoden) hingegen immer eindeutig benannt. Ein weitere wichtiger 
Unterschied ist die Präsenz von impliziten Referenzen in natürlicher Sprache; auch Bezüge zwischen 
zwei (oder mehr) natürlichsprachlichen Einheiten können häufig nur aus dem Kontext erschlossen 
werden. In Programmiersprachen werden Referenzen immer explizit hergestellt. Dementsprechend 
kann eine Abbildung von natürlicher Sprache auf eine Programmiersprache nicht mithilfe einfacher 
Such- oder Übersetzungstechniken gelingen; stattdessen muss die Bedeutung der natürlichen 
Sprache vielmehr interpretiert werden (das heißt unter anderem müssen Mehrdeutigkeiten aufgelöst 
und implizite Referenzen expliziert werden), damit aus einer natürlichsprachlichen Beschreibung 
Quelltext synthetisiert werden kann. 


2.3.12 Verständnis gesprochener Sprache 


Das Forschungsgebiet Verständnis von gesprochener Sprache (engl. spoken language understanding, 
kurz SLU) ist Teilgebiet des Forschungsgebiets zum Verständnis von natürlicher Sprache, das im 
vorangegangenen Abschnitt beschrieben wurde. Der Fokus der Betrachtungen liegt jedoch auf den 
Phänomenen gesprochener Sprache und den daraus folgenden Herausforderungen bei der Analyse 


der Bedeutung gesprochener Artefakte [TD11]. 


Herausforderung im Vergleich zu geschriebener Sprache 


Eine wesentliche Herausforderung ist, dass gesprochene Sprache im Allgemeinen ungrammatisch ist. 
Natürlichsprachliche Äußerungen werden häufig nicht aus vollständigen Sätzen gebildet; außerdem 
enthalten sie häufig grammatikalische Fehler oder zumindest unübliche Konstruktionen. Dies gilt 
insbesondere für spontane Sprache, bedingt aber auch für geplante Sprache, wie beispielsweise 
vorbereitete Reden. Vor allem spontane Sprache enthält zudem häufig sogenannte Disfluenzen. 


46 Eine Form der Mehrdeutigkeit ist die Mehrdeutigkeit einzelner Wörter (siehe|Abschnitt 2.3.8). 
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Disfluenzen sind Unterbrechungen des Sprechflusses. Derartige Unterbrechungen könnten entweder 
sogenannten Hesitationen sein, das heißt kurze Pausen beim Sprechen. Verwendet der Sprecher 
Verzögerungslaute, wie beispielsweise uhm oder äh, um die Pause zu füllen, spricht man von 
sogenannten gefüllten Pausen. Eine weitere Form von Disfluenzen sind verbalisierte Korrekturen bei 
denen ein Sprecher entweder zuvor getätigte Aussagen inhaltlich korrigiert (bzw. revidiert) oder eine 
Aussage, die einen Versprecher enthielt, verbessert. Außerdem hängt gesprochene Sprache deutlich 
stärker von individuellen Charakteristika des Sprechers ab als geschriebene Sprache; gemeint sind vor 
allem die Betonung, der Dialekt und der Akzent des Sprechers, aber auch bevorzugte Formulierungen 
(bzw. Redewendung) sowie das Vokabular. Zuletzt werden üblicherweise Systeme zur automatischen 


Spracherkennung verwendet, um das Audiosignal in eine textuelle Form zu überführen (siehe|Ab- 
schnitt 2.3.7), bevor die Bedeutung des Gesagten analysiert werden kann. Spracherkennungssysteme 
arbeiten jedoch nicht fehlerfrei; das bedeutet, die Verfahren zum Verständnis gesprochener Sprache 


müssen damit umgehen können, das in den zu analysierenden Äußerungen fehlerhafte Wörter 
enthalten sind. Außerdem erzeugen Spracherkennungssysteme normalerweise keine Satzzeichen, 
vornehmlich weil es nicht möglich ist, für ungrammatische Sprache sinnhafte Interpunktionen zu 
inferieren. 


Herangehensweisen 


Aufgrund dieser Unterschiede zwischen gesprochener und geschriebener Sprache können viele NLU- 
Ansätze, die vorrangig für geschriebene Sprache entwickelt wurden, nicht unmittelbar angewendet 
werden. Um dieses Problem zu beheben, gibt es im Wesentlichen zwei Herangehensweisen. Die 
erste sieht vor, ein vorhandenes NLU-System zu verwenden bzw. ein NLU-System zu erstellen 
und diesem ein System zur automatischen Spracherkennung voranzustellen (siehe Abschnitt 2.3.7). 
Um den Herausforderungen gesprochener Sprache gerecht zu werden, werden die Sprachanalysen 


des NLU-Systems angepasst bzw. erweitert? "| Ansätze, welche der zweiten Herangehensweise 
zuzuordnen sind, verknüpfen das Sprachverständnis direkt mit der Spracherkennung. Das bedeutet, 
Bedeutungsanalysen werden direkt in den automatischen Spracherkenner integriert. Beispielsweise 
erzeugen einige Verfahren bedeutungsbeschreibende Etiketten direkt auf Phonemebene. 


Anwendungsgebiete 


Für das Verständnis gesprochener Sprache gibt es unterschiedliche Anwendungsgebiete; für alle 
dieser Anwendungsgebiete gibt es jeweils Ansätze, die sich den beiden zuvor beschriebenen 
Herangehensweisen zuordnen lassen. Die erste Anwendung ist zugleich der meist betrachtete 
Forschungsgegenstand: Dialogsysteme. Wie schon im vorangegangen Abschnitt beschrieben, müssen 
Dialogsysteme Äußerungen des Nutzers verstehen, um etwas Sinnhaftes erwidern zu können. 


Eine weitere Anwendung ist die Informationsrückgewinnung aus Sprachartefakten (engl. speech 
information retrieval, kurz SRI). Dieser Forschungszweig beschäftigt sich damit, Sprachartefakte 
(beispielsweise aufgezeichnete Reden oder Dialogmitschnitte) derart aufzubereiten, dass sie anhand 
ihres Inhalts auffindbar sind (z. B. durch Suchmaschinen). Zu den Aufgaben gehören somit die 
Katalogisierung und Inhaltsanalyse von Sprachartefakten. Ein weiteres Anwendungsgebiet ist 


#7 Auch der in dieser Arbeit verfolgt Ansatz lässt sich dieser ersten Herangehensweise zuordnen (siehe Kapitel 5). 
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die Beantwortung von Fragen (engl. question answering). Ansätze dieser Kategorie verwenden 
Sprachverständnisverfahren, um Nutzeranfragen zu interpretieren und in eine Darstellung zu über- 


führen, die es erlaubt, Informationen aus einer Wissensquelle zu beziehen (siehe/Abschnitt 2.3.15). 


Beispielsweise können aus natürlichsprachlichen Äußerungen Datenbankabfragen erzeugt werden 
(siehe Abschnitt 3.4). 


Auch virtuelle Assistenzsysteme, wie Siri, Google Assistant oder Amazon Alexa gehören prinzipiell 
zu dieser Kategorie von Anwendungen. Allerdings besitzen Assistenzsysteme zusätzlich (zumeist 
rudimentäre) Fähigkeiten zur Dialogführung und können nicht nur Fragen beantworten, sondern auch 
Aufgaben erfüllen. Aus technischer Sicht unterscheiden sich die benötigten Sprachverständnisfähig- 
keiten zur Umsetzung der beiden Funktionalitäten jedoch nicht. Unabhängig davon, ob ein Nutzer 
das morgige Wetter erfragt (Fragebeantwortung) oder ein neuer Kalendereintrag erstellt werden soll 
(Aufgabenerfüllung), erfordert beides die Synthese eines schnittstellenkonformen Aufrufs an einen 


Dienstgeber. 


Um die Programmierung anhand gesprochener natürlichsprachlicher Äußerung zu ermöglichen 
(wie es in der hiesigen Arbeit angestrebt wird), wird ein besonders tiefes Verständnis natürlicher 
Sprache benötigt. Einerseits müssen, ähnlich wie bei Systemen zur Fragebeantwortung oder 
virtuellen Assistenzsystemen, Anweisungen (bzw. Aufrufe) synthetisiert werden. Allerdings bestehen 
Programme nicht nur aus einer einzelnen Anweisung, sondern setzen sich aus einer Reihe (teilweise 
voneinander abhängiger) Anweisungen zusammen. Hinzu kommen Kontrollstrukturen, die nur 
erzeugt werden können, wenn natürlichsprachliche Äußerungen entsprechend interpretiert werden. 
Damit die Programmierung mit gesprochener Sprache gelingen kann, muss also die Semantik und 
Pragmatik von Äußerungen verstanden und interpretiert werden (siehe Abschnitt 2.3.1). 


2.3.13 Ähnlichkeitsmaße für Zeichenketten 


In der Computerlinguistik ist es häufig erforderlich zu bestimmen, wie ähnlich sich zwei Wörter 
hinsichtlich ihrer Oberflächenform sind. Hierzu werden die Zeichenketten verglichen, aus denen die 
Wörter bestehen. Ähnlichkeitsmaße können dementsprechend aus Distanz-Metriken für Zeichenket- 
ten abgeleitet werden. Es existieren viele unterschiedliche Ähnlichkeitsmaße für Zeichenketten®} 
an dieser Stelle werden nur die im Kontext der vorliegenden Arbeit relevanten vorgestellt: die 
Levenshtein-, die Jaro-Winkler- und die unscharfe Ähnlichkeit. 


2.3.13.1 Levenshtein-Distanz und Levenshtein-Ähnlichkeit 


Die Levenshtein-Distanz ist eine Metrik zur Bestimmung der Unterschiede zweier Zeichenket- 
ten [Lev66]. Die Distanz zweier Zeichenketten wird bestimmt, indem die minimale Anzahl an 


Editieroperationen (das heißt Einfügungen, Entfernungen und Vertauschungen) bestimmt wird, die 
benötigt wird, um die erste Zeichenkette in die zweite zu überführen. Aus diesem Grund wird die 
Levenshtein-Distanz häufig auch als Editierdistanz (engl. edit distance) bezeichnet. Formal ist die 


# Bin Vergleich der verschiedenen Maße kann der Arbeit von Cohen et al. entnommen werden |CRFO3 
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Levenshtein-Distanz Lev zweier Zeichenketten a und b durch folgende Gleichung definiert, wobei i 
und j zu Beginn den Längen der Zeichenketten, also |a| und |b| entsprechen: 


max(i, j) falls min(i, j) = 0, 
Leves(t— 1,7) +1 
Levap(i,j) = al i) (2.4) 
min § Leva p(i,j —1) +1 andernfalls. 


Levap(i u 1,7 >= 1) =: 1(a;4b;) 


Die Levensthein-Ahnlichkeit Sim ey zweier Zeichenketten a und b wird aus der Levenshtein-Distanz 
abgeleitet, indem diese über die Länge der längeren Zeichenkette normiert wird: 


Leva,p(lal, |b) 


Simrer(a, b) =j 
ma(\a|, |bl) 


(2.5) 


Auf diese Weise wird der Anteil der übereinstimmenden Zeichenkettenbestandteile im Wertebereich 
[0; 1] angegeben. 


2.3.13.2 Jaro-Winkler-Ähnlichkeit 


Die Jaro-Winkler-Ahnlichkeit basiert auf der Jaro-Ähnlichkeit [|Win90], die wiederum eine Variante 
der Jaro-Distanz ist |Jar89]. Die Jaro-Ähnlichkeit Sim Jaro bestimmt die Anzahl und Reihenfolge 


übereinstimmender Zeichen zweier Zeichenketten a und b: 


1 (=> b) m(a,b) m(a,b) =) 


Simeo D= 3 a E H mad 


(2.6) 
Dabei bezeichnet m(a, b) die Anzahl der übereinstimmenden Zeichen der beiden Zeichenketten a 
und b. Zwei Zeichen gelten als übereinstimmend, wenn a; = b; und der Abstand geringer ist als die 
Hälfte der längeren der beiden Zeichenketten weniger eing®] Das bedeutet, folgende Ungleichung 
muss erfüllt sein: 


(2.7) 


maz(|al, 1) 
|: 


als | 


Die beiden Zeichenketten aebdcz und bacde stimmen gemäß dieser Definition an vier Stellen 
überein (da die beiden e zu weit voneinander entfernt stehen), das heißt m(aebdcz, bacde) = 4). 
Weiterhin ist t definiert als die Anzahl an Transpositionen, die nötig sind um m(a, b) zu bestimmen. 
Für die beiden zuvor gezeigten Zeichenketten sind zwei Vertauschungen (in einer der Zeichenketten) 
nötig, um die Übereinstimmung ermitteln zu können: die Zeichen a und b und c und d müssen 
getauscht werden. Für t ergibt sich somit der Wert zwei. 


®  Wiederholende Zeichen in den Zeichenketten spielen keine Rolle. Für jedes Zeichen einer Zeichenkette wird nur 


maximal genau ein Entsprechung innerhalb der anderen Zeichenkette bestimmt — und zwar das mit dem geringsten 
Abstand. 
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Die Jaro-Winkler-Ähnlichkeit Sim yy verwendet die Jaro-Ähnlichkeit, erzeugt jedoch höhere 
Ähnlichkeitswerte, wenn die Zeichenketten ein gemeinsames Präfix besitzen. Hierzu wird die Länge 
l des gemeinsamen Präfixes bestimmt; die maximale Länge des Präfix, der in die Berechnung 
eingeht, wird auf vier begrenzt (Inax = 4). Der Einfluss der Präfixübereinstimmung auf die 


Distanzbewertung kann über den Faktor p angepasst werden] 


Simyw (a,b) = Jaro(a,b) + l- p(1 — Jaro(a, b)) (2.8) 


Der Wertebereich der Jaro-Winkler-Ahnlichkeit ist [0; 1] (bei geeigneter Wahl von p), wobei der 
Wert 1 eine exakte und 0 keine Ubereinstimmung der Zeichenketten bedeutet. 


2.3.13.3 Unscharfe Ahnlichkeit 


Unscharfe Zeichenkettenvergleiche sind eigentlich eine Klasse von Verfahren. Die hier beschriebene 
unscharfe Ahnlichkeit basiert auf der unscharfen Bewertung (engl. fuzzy score), wie sie von 
der Bibliothek Apache Commons implementiert wird>"| Die Bewertung F'uzzy(a, b) basiert auf 
der Anzahl von Übereinstimmungen einzelner Zeichen a; und b; zweier Zeichenketten a und b. 
Teilsequenzenkönnen können dabei verschoben werden, um an der anderen Zeichenkette ausgerichtet 
zu werden, Vertauschungen sind jedoch nicht zulässig. Zusammenhängende Sequenzen werden ab 
der zweiten Übereinstimmung dreifach gewertet. Die unscharfe Bewertung für die Zeichenketten 


loremipsum und ipsumlorem wird demnach wie folgt bestimmt: 


loremipsum----- 
-----ipsumlorem 


0000013333 00000 = 13 


Fiir die Zeichenketten abcabcabc und ababab wird hingegen folgende Bewertung bestimmt: 


abcabcabe 
ab-ab-ab- 
130130130 =12 


Die unscharfe Bewertung betrachtet nur Ubereinstimmungen, Unterschiede zwischen den Zeichen- 
ketten werden nicht betrachtet. Da die unscharfe Bewertung einen unbegrenzten Wertebereich hat, 


wird die zugehörige Ähnlichkeit Sim puz zy definiert, indem die Bewertung normiert wird: 


Fuzzy(a, b) 
3: max(|a|, |b|) — 2 


SimFuzzy(a,b) = (2.9) 


50 Winkler verwendet in seiner Arbeit als Wert 0,1; auch die Bibliothek Apache Commons verwendet diesen. Es sollte 


in jedem Fall ein Wert gewählt werden, der kleiner ist als der Kehrwert der maximalen Länge des Präfixes (das heißt 
p<l / lmaz), da die J aro-Winkler-Ahnlichkeit andernfalls Werte größer 1 annehmen kann. Für lmaz = 4 sollte 
dementsprechend p < 0, 25 gelten. 


>! Apache Commons: https: //commons. apache. org/proper/commons-text/apidocs/org/apache/ 


commons/text/similarity/FuzzyScore. html, zuletzt besucht am 24.02.2021. 
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Abbildung 2.16: Ein Auschnitt einer Ontologie zur Domine Film: Konzepte sind als griine Knoten dargestellt, Individuen 
sind kursiv geschrieben und Relationen orange hervorgehoben. 


Der Nenner der Gleichung zur Normierung lässt sich auf die maximal erreichbare Bewertung bei 
völliger Übereinstimmung zweier Zeichenketten zurückführen. In diesem Fall werden alle Zeichen 
bis auf das erste dreifach gewertet. 


2.3.14 Ontologien 


Der Begriff Ontologie bezeichnet den Fachbereich der Philosophie, der sich mit allem Seienden und 
den Zusammenhängen zwischen Entitäten sowie den Strukturen, die sich daraus bilden, beschäftigt. 
Davon leitet sich das Konstrukt der Ontologie ab, wie es im Kontext der Informatik verwendet wird. 


Gruber definiert Ontologien folgendermaßen [Gru93]: 


„An ontology is an explicit specification of a shared conceptualization. {>>| 


Das bedeutet, Ontologien werden dazu verwendet, Wissen tiber einen Gegenstandsbereich (das 
heißt eine Domäne) explizit zu modellieren] sodass dieses Modell genutzt werden kann, um 
Wissen auszutauschen. Ontologien bestehen grundlegend aus Konzepten, Individuen und Relationen. 
Konzepte (auch als Klassen bezeichnet) beinhalten Individuen (auch als Instanzen bezeichnet); 
dabei ist es möglich, dass ein Individuum mehreren Konzepten angehört. Relationen können zwi- 
schen Konzepten oder zwischen Individuen gelten. Konzepte können wiederum in übergeordneten 
Konzepten enthalten sein (sogenannte Oberkonzepte); dementsprechend bilden sich für gewöhnlich 
Konzepthierarchien. Als abstraktes Oberkonzept einer Ontologie, in die alle weiteren Konzepte 
eingeordnet werden, wird zumeist das Konzept Thing (dt. Ding) verwendet. Relationen können 
uni- oder bidirektional sein; außerdem können Konzepten und Individuen mithilfe von Datenrela- 


tionen auch Attribute und Werte zugewiesen werden. Abbildung 2.16|zeigt den Ausschnitt einer 


” Zu deutsch: Eine Ontologie ist eine explizite Spezifikation einer geteilten Konzeptualisierung. 


> Im Gegensatz zur Philosophie modellieren Ontologien immer nur einen Ausschnitt des Wissens über die Wirklichkeit. 
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Beispielontologie zur Domäne Film. Ontologien eignen sich zur Bereitstellung von Wissen für 
Computersysteme. Einerseits entsprechen Ontologien in ihrem Aufbau der menschlichen Gedan- 
kenwelt und können daher von Domänenexperten ohne Programmierkenntnisse erstellt werden. 
Andererseits bieten sie eine wohl definierte und explizite Darstellung von Wissen, sodass dieses 
algorithmisch verwendet werden kann. In der Computerlinguistik werden Ontologien vorrangig dafür 
genutzt, Sprachanalyseverfahren Wissen über die Domäne der sprachlichen Artefakte zur Verfügung 
zu stellen oder menschliches Allgemeinwissen zu modellieren, um Sprachverständnisfähigkeiten 
von Menschen zu imitieren. Das Datenformat OWL gilt als De-Facto-Standard zur Darstellung 
von Ontologien; OWL ist eine formale Auszeichnungssprache und basiert auf RDF, welche zur 


Darstellung von Prädikaten entwickelt wurde [AvO4]. 


2.3.15 Wissensdatenbanken 


Im Kontext der Computerlinguistik sind zwei Arten von Wissensdatenbanken von besonderem 
Interesse. Zum einen solche, die sprachliches Wissen beinhalten; diese werden vor allem zur 
semantischen Interpretation von (zuvor extrahierten) syntaktischen Informationen verwendet. Zum 
anderen werden Datenbanken verwendet, die Faktenwissen bzw. sogenanntes Weltwissen beinhalten; 
diese werden dazu genutzt, Sprachanalysen mit Hintergrundwissen auszustatten und so menschliches 
Allgemeinwissen nachzubilden. In den folgenden Abschnitten wird eine Auswahl von Wissensda- 
tenbanken vorgestellt, die für die Arbeit relevant sind. Hinsichtlich der Wissensdatenbanken, die 
sprachliches Wissen enthalten, sind dies WordNet, FrameNet, VerbNet und PropBank. Seitens der 
Weltwissensdatenbanken werden Wikipedia (bzw. DBpedia) und Cyc betrachtet. 


2.3.15.1 WordNet 


WordNet ist eine manuell angelegte, hierarchisch organisierte, lexikalische Datenbank der englischen 


Sprache, die seit 1985 von der Princeton University entwickelt wird [Fel98}|Fel10]. Die Einträge der 


Datenbank bilden sogenannte Synsets. Diese bestehen aus einer Menge von (Beinahe-)Synonymen 
(Begriffen) und bilden eine Bedeutungseinheit. Zur Beschreibung der Bedeutung ist jedem Synset 
auBerdem eine Glosse zugeordnet. Einzelne Begriffe konnen in mehreren Synsets enthalten sein. Das 
Synset zum Begriff computer im Sinne einer Maschine, die automatisch Berechnungen durchführt, 
lautet wie folgt: 


[computer, computing machine, computing device, data processor, 
electronic computer, information processing system] 


— Glosse: a machine for performing calculations automatically 


Außerdem sind in WordNet lexikalische Relationen hinterlegt, die zwischen Synsets bestehen. Unter 
anderem gibt es Ober-Unterbegriff- (Hyperonymie und Hyponymie) und Teil-Ganzes-Beziehungen 
(Meronymie und Holonymie). Durch diese Relationen wird eine Hierarchie von Synsets gebildet; 
WordNet ist somit auch ein Thesaurus. Die Synsets sind nach Wortarten untergliedert; es existieren 
Synset-Sammlungen für Substantive, Verben, Adjektive und Adverbien. Der Umfang der aktuellen 
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Version 3.1, die 2011 veröffentlicht wurde, beträgt 117659 Synsets, davon 82115 für Nomen, 13767 
für Verben, 18156 für Adjektive und 3621 für Adverbien*] 


2.3.15.2 FrameNet 


FrameNet ist eine manuell angelegte, lexikalische Datenbank der englischen Sprache zur Be- 
schreibung der Semantik, die seit 1997 vom International Computer Science Institute in Berkeley 


entwickelt wird [BFL98]. Die Einträge bilden sogenannte semantische Rahmen (engl. semantic 
frames), welche auf die von Fillmore entwickelte Theorie der frame semantics zurückgehen |[Fil76|]. 
Die Theorie besagt, dass die Semantik einer sprachlichen Einheit (z. B. eines Wortes) immer im 


Kontext von Weltwissen beschrieben werden muss. Ein Wort erzeugt dementsprechend (zusammen 
mit dem sprachlichen Kontext) beim Leser (oder Hörer) eine innere Vorstellung, welche mithilfe 
eines semantischen Rahmens beschrieben werden kann. Folglich beinhaltet ein Rahmen weitere 
sprachlichen Einheiten, die im selben Kontext auftreten. Die sprachlichen Einheiten bilden soge- 
nannte lexical units. Diese sind Wörter (oder Phrasen) in einer bestimmten Bedeutung; das heißt pro 
Wort existieren potenziell mehrere /exical units. Ein semantischer Rahmen besteht aus lexical units 
und Relationen zwischen diesen. Der Rahmen Text_creation beinhaltet beispielsweise die lexical 
units Author, Text und write sowie die Relationen, die den Fakt beschreiben, dass Autoren Texte 
schreiben. Darüber hinaus können Rahmen weitere optionale Relationen und lexical units enthalten. 
Für den Rahmen Text_creation gibt es beispielsweise eine optionale Relation zur Beschreibung eines 
Adressaten. Außerdem können auch semantische Rahmen über spezielle Relationen miteinander in 
Verbindung stehen. Dadurch bildet sich ein Netz von semantischen Rahmen. FrameNet umfasst 
derzeit 1224 semantische Rahmen, die 6985 lexical units enthalten, sowie 1878 Relationen, die 
Rahmen verknüpfen >| 


2.3.15.3 VerbNet 


VerbNet ist eine weitere manuell angelegte, lexikalische Datenbank der englischen Sprache zur 
Beschreibung der Semantik, welche jedoch Verben als zentrales Element definiert Kip+06]. 
VerbNet basiert auf der Annahme, dass die Semantik einer Phrase anhand des Verbs und dessen 
Argumenten erfasst werden kann. Ausgehend davon werden analog zu FrameNet Rahmen für Verben 
definiert und Argumente zugeordnet. VerbNet umfasst derzeit 5257 solcher Verb-Rahmen‘‘| 


2.3.15.4 PropBank 


Eine weitere Ressource, welche die Semantik ausgehend von Verben beschreibt, ist die Proposition 
Bank, kurz PropBank |KPO2} PGKOS5]. Bei der PropBank handelt es sich um ein bearbeitetes 


> Statistiken zu WordNet 3.0: https: //wordnet.princeton. edu/documentat ion/wnstats7wn, zuletzt besucht 
am 24.02.2021. 

Statistiken zu FrameNet: https: //framenet .icsi.berkeley. edu/fndrupal/current_status, zuletzt be- 
sucht am 24.02.2021. 

Statistiken zu VerbNet: https: //verbs.colorado.edu/verbnet/, zuletzt besucht am 24.02.2021. 
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Korpus, welches aus einem Teil der Penn Tree Bank besteht, der mit Etiketten zur Beschreibung der 
Semantik annotiert wurde. Die Etiketten beschreiben die konkrete Semantik von A*-Rollen (siehe 
Abschnitt 2.3.4.8) in Abhängigkeit vom Prädikat des Satzes. Anhand des Korpus konnten wiederum 
semantische Rahmen abgeleitet werden, die in einer lexikalischen Datenbank zusammengefasst 


wurden. Die semantischen Rahmen bilden abstrakte A*-Rollen auf konkrete Rollen ab, die im 
Kontext eines Verbs mit einer bestimmten Bedeutung gültig sind. Der Rahmen für das Verb give im 


Sinne von eine Sache übergeben ist beispielsweise wie folgt definiert: 


AO: giver (dt. Gebender) 
Al: thing given (dt. übergebene Sache) 


A2: entity given to (dt. erhaltende Entität bzw. Empfänger) 


Fiir die Rahmen der drei lexikalischen Datenbanken FrameNet, VerbNet und PropBank existieren 
Abbildungen. Es ist also möglich für einen konkreten PropBank-Rahmen den entsprechenden 
FrameNet- oder VerbNet-Rahmen zu bestimmen. Dadurch können potenziell etwaige Lücken in den 
einzelnen Datenbanken bei der Verwendung der semantischen Repräsentationen ausgefüllt werden. 


2.3.15.5 Wikipedia und DBpedia 


Die Wikipedia ist eine offene Online-Enzyklopädie, die seit 2001 existiert und kontinuierlich 
erweitert wird” Sie ist heutzutage auch die Enzyklopädie mit dem größten Gesamtumfang; alleine 
der englischsprachige Teil der Wikipedia umfasst derzeit knapp 6,3 Millionen Artikel>>| Insgesamt 
sind Artikel in mehr als 300 Sprachen verfügbar”) Jeder Artikel umfasst ein Thema, beispielsweise 
beschreibt der Artikel Karlsruher Institut für Technologie die in Karlsruhe ansässige technische 


Universität, ihre Geschichte, organisatorische Gliederung, den Forschungsbetrieb usw] Nahezu 
alle Artikel enthalten Begriffe, die in einem anderen Artikel beschrieben werden; fiir diese Begriffe 
können (üblicherweise beim erstmaligen Auftreten) Querverweise in Form von Verknüpfungen 
(engl. hyper link) zum erklärenden Artikel eingefügt werden. Der Artikel Karlsruher Institut für 
Technologie enthält beispielsweise einen Querverweis zum Artikel Technische Universität. 


Die Wikipedia wird von der Wikimedia Foundation Inc. betrieben, die Artikel stammen jedoch 
von registrierten und nicht registrierten Nutzern der Wikipedia; auch die Qualitätssicherung 
geschieht durch die Nutzer. Trotz dieses offenen Konzepts zur Erstellung von Artikeln zeigte 
eine Untersuchung, dass die Wikipedia bereits 2005 (vier Jahre nach Beginn des Projekts) eine 
vergleichbare Genauigkeit und Themenabdeckung wie die Encyclopedia Britannica aufwies. 
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Startseite der englischsprachigen Wikipedia: https: //en.wikipedia.org/wiki/ Main_Page, zuletzt besucht am 
24.02.2021. 

Derzeit sind 6182360 Artikel in der englischsprachigen Wikipedia enthalten. Siehe hierzu: https: //en.wikipedia 
org/wiki/Special :Statistics?action=raw, zuletzt besucht am 24.02.2021. 

Derzeit gibt es in 319 Sprachen mindestens einen Artikel. Siehe hierzu: https: //meta.wikimedia. org/wiki/ 
List_of_Wikipedias, zuletzt besucht am 24.02.2021. 


6% Artikel zum Karlsruher Institut für Technologie: https: //en.wikipedia.org/wiki/Karlsruhe_Institute_ 
of Technology, zuletzt besucht am 24.02.2021. 
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Aufgrund des enormen Umfangg°"| und der relativ einheitlichen Sprache der Artikel wird die 
Wikipedia im Kontext der Computerlinguistik häufig als Korpus verwendet. 


Das Projekt DBpedia verfolgt das Ziel, die Wikipedia als elektronisch verarbeitbare Wissensdatenbank 


aufzubereiten [Aue+07} Leh+15]. Hierzu wird aus den Inhalten der Wikipedia automatisch ein 


Graph (bzw. eine Ontologie) generiert. Dadurch wird das in der Wikipedia enthaltene Wissen 
direkt algorithmisch verwendbar. In DBpedia bilden die Artikel Konzepte (sogenannte things), die 
untereinander und mit Faktenwissen, das aus den Artikeln extrahiert wurde, verknüpft sind. Die 
Relationen werden unter anderem durch die Querverweise in den Artikeln gebildet. Hinzu kommen 
Kategorie-, Oberbegriff- und ähnliche Beziehungen, die eine Hierarchie der Konzepte erzeugen. Zur 
Erzeugung der DBpedia werden neben der englischsprachigen Wikipedia weitere große Wikipedias 
in anderen Sprachen verwendet; alleine der englischsprachige Ausschnitt von DBpedia umfasst 
Knapp 4,6 Millionen Konzeptd™| Viele der Konzepte von DBpedia sind mit Konzepten anderer 
Wissensdatenbanken verknüpft, unter anderem auch mit der öffentlich zugänglichen Variante der im 
nachfolgenden Abschnitt beschriebenen Weltwissenontologie Cyc. 


2.3.15.6 Cyc 


Das Cyc-Projekt verfolgt seit 1984 das Ziel eine Weltwissenontologie zu erschaffen [|Len95]. 


Die Ontologie soll dementsprechend nicht nur einen Ausschnitt der Wirklichkeit beschreiben 
(so wie es Ontologien normalerweise tun); stattdessen werden Fakten, Konzepte und Relationen 
erstellt, die das Wissen über die Welt möglichst vollumfänglich wiedergeben. Die Ontologie 
enthält daher auch vergleichsweise banale Fakten, wie beispielsweise, dass Flüssigkeiten einen 
oben offenen Behälter verlassen, wenn dieser mit der Öffnung nach unten gedreht wird, oder dass 
Menschen nachts schlafen und dass man Menschen nur wecken kann, wenn sie zuvor geschlafen 
haben. Die Zielstellung, sämtliches Wissen über die Welt zu modellieren, wirft seit Beginn 
des Projekts zwei wesentliche Probleme auf. Zum einen ist der Umfang an Informationen zur 
Beschreibung allen Wissens über die Welt grundsätzlich unbeschränkt; trotz mehr als 400000 
Konzepten und über einer Million Individuen, die bisher gesammelt werden konnten] beschreibt 
die Cyc-Ontologie immer noch nur einen geringen Teil des Allgemeinwissens. Zum anderen 
können sich Informationen je nach Kontext widersprechen; ähnlich wie Wörter, die je nach 
sprachlichem Kontext unterschiedliche Bedeutungen annehmen, können auch Fakten je nach Kontext 
variieren. Beispielsweise verliert der zu Beginn genannte Fakt zum Verhalten von Flüssigkeiten 
in Behältnissen seine Gültigkeit, wenn sich beides statt auf der Erde im Weltall befindet. Um 
diese Probleme zu lösen, werden sogenannte Mikrotheorien (engl. micro theories) gebildet; diese 
bilden Subräume, in denen Konzepte im Kontext anderer Konzepte beschrieben werden. Die in 
Mikrotheorien gesammelten Informationen sind widerspruchsfrei, können aber Informationen in 


61 Zusammengenommen beinhalten die Artikel der englischsprachigen Wikipedia derzeit mehr als 3,8 Milliarden 


(3800720274) Wörter. Siehe hierzu: https://en.wikipedia.org/wiki/Special:Statistics?action=raw 
zuletzt besucht am 24.02.2021. 


€ DBpedia: https://wiki.dbpedia. org/about, zuletzt besucht am 24.02.2021. 


6 Stand 2017. 
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anderen Mikrotheorien widersprechen. Mikrotheorien bilden sozusagen Domänen; Cyc ist somit 
eigentlich eine Sammlung vieler einzelner Domänen, die für sich abgeschlossen sind. 


Es existieren (bzw. existierten) verschiedene Varianten der Cyc-Ontologie, die sich hauptsächlich 
hinsichtlich ihres Umfangs unterscheiden. Die vollständige Cyc-Ontologie ist nur nach Erwerb 
einer kommerziellen Lizenz zugänglich. Zu Forschungszwecken frei verfügbar wurde zudem über 
viele Jahre ein Großteil der Ontologie unter dem Namen ResearchCyc veröffentlicht; das Projekt 
ResearchCyc wurde jedoch Ende 2019 eingestellt. Die dritte Variante ist OpenCyc; unter diesem 
Namen wurde bis 2015 ein kleiner Ausschnitt der Cyc-Ontologie frei zugänglich gemacht. Zwar 
wird auch OpenCyc nicht mehr offiziell unterstützt; es existieren jedoch Versionen des letzten 
veröffentlichen Standes der Ontologie im OWL-Format (siehe|Abschnitt 2.3.14). 


2.3.16 Repräsentation von Wörtern als Vektoren 


In der Computerlinguistik werden Wörter häufig als Vektoren dargestellt. Eine Wortvektorreprä- 
sentation hat den Vorteil, dass Vektoren mithilfe von Vektordistanzmaßen verglichen werden 
können, um beispielsweise Ähnlichkeiten zwischen Wörtern zu bestimmen. Außerdem erwarten 
viele Verfahren des maschinellen Lernens die Darstellung der Eingabe als Eigenschaftsvektoren 


(siehe Abschnitt 2.2.1). 


Die einfachste Variante stellt die Verwendung sogenannter /-aus-n-Vektoren (engl. one hot vector) 


dar |GBC16]. Hierzu wird ein Vektorraum aufgespannt, dessen Dimensionalität dem bekannten 


Vokabular (beispielsweise eines Korpus) entspricht. Jede Dimension repräsentiert genau ein Wort} 
Wörter werden in diesem Modell repräsentiert, indem die entsprechende Dimension auf eins gesetzt 
wird, während alle anderen null sind. Diese Darstellungsform wird im Kontext des maschinellen 
Lernens häufig zur Darstellung von Elementen beliebiger Mengen verwendet, beispielsweise auch 


zur Darstellung der Ausgabeklassen bei Mehrfachklassen-Klassifikationsproblemen (siehe |Ab+ 
[schnitt 2.2.1). Für die Repräsentation von Wörtern birgt dieses einfache Modell allerdings erhebliche 
Nachteile. Zum einen sind die Vektoren sehr dünn besetzt (je nur genau eine Dimension), wodurch 
Lernverfahren und Vektormaße weniger gut angewendet werden können (siehe Abschnitt 2.2.1). 
Außerdem wird nur das Wort isoliert von seiner Umgebung repräsentiert. Häufig Kann die Bedeutung 
eines Wortes aber nur über den Kontext erschlossen werden (siehe Abschnitt 2.3.8). 


Daher repräsentiert eine zweite Darstellungsform Wörter anhand ihrer Wortumgebung: die soge- 
nannten Bag-of-Words-Vektoren, kurz BoW [JMO9b]. Auch zur Erzeugung von BoW-Vektoren 
wird zunächst ein Vektorraum aufgespannt, dessen Dimensionalität dem Umfang des Vokabulars 
entspricht®| Jede Dimension repräsentiert wiederum ein Wort. Die Vektoren zur Darstellung 
einzelner Wörter geben Auskunft darüber, von welchen anderen Wörtern das betrachtete Wort 
häufig umgeben wird. Hierzu muss festgelegt werden, wie groß die betrachtete Umgebung (links 
und rechts) der Wörter sein soll. Außerdem muss die Art der Vektoreinträge definiert werden. 
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Zur Optimierung des Verfahrens können zunächst die Lemmata der Wörter bestimmt werden (siehe| Abschnitt 2.3.4.4). 
Je nach Einsatzgebiet sind nur bestimmte Umgebungswörter relevant. In diesem Fall begrenzt sich die Dimension des 
Vektorraums auf den Umfang der zu betrachtenden Wörter. 
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are: ] are: 1 are: 1 
bass: 0 bass: 0 bass: 0 
black: 1 black: 2 black: 2 
fish: 0 fish: 0 fish: 0 
fishermen: 0 fishermen: 0 fishermen: | 
sea: 0 sea: 0 sea: | 
species: 0 species: | species: 1 
u... black bass are ...“ „... black bass species ...“ yy... sea bass fishermen ...“ 
(a) erstes Auftreten (b) zweites Auftreten (c) drittes Auftreten 


Abbildung 2.17: Schrittweiser Aufbau eines BoW-Vektors fiir das Wort bass anhand von drei beispielhaften Auftreten in 
einem Korpus. 


Beispielsweise können Vorkommen in der Umgebung binär kodiert werden, gezählt oder anteilig 
angegeben werden. Zur Erzeugung von BoW-Vektoren müssen konkrete Auftreten von Wörtern und 


die jeweiligen Umgebungen anhand eines Korpus bestimmt werden.|Abbildung 2.17|zeigt diesen 


Vorgang anhand eines Beispiels. BoW-Vektoren ermöglichen die Darstellung von Wörtern anhand 
ihres Kontextes. Allerdings sind auch diese immer noch verhältnismäßig dünn besetzt. Außerdem 
sind die Vektorräume beider bisher betrachteter Verfahren hochdimensional, wodurch sie für die 


meisten Verfahren des maschinellen Lernens unbrauchbar sind (siehe Abschnitt 2.2.1). 


Eine bessere Alternative stellen sogenannte Worteinbettungen (engl. word embeddings) dar. Auch 
diese repräsentieren Wörter anhand der umgebenden Wörter. Die Anzahl der Dimensionen der 
Vektoren ist jedoch unabhängig vom Vokabular und deutlich geringer; häufig werden 150 bis 300 
Dimensionen definiert. Außerdem sind die Vektoren wesentlich dichter besetzt. Zur Erzeugung der 
Vektoren wird ein Trick angewandt, der prinzipiell folgendermaßen funktioniert. Für ein vorwärts 
gerichtetes neuronales Netz (siehe[Abschnitt 2.2.2) wird eine Pseudo-Aufgabe trainiert, die sich auf 
Wortumgebungen bezieht, beispielsweise die Vorhersage des nächsten Wortes bei Eingabe eines 
beliebigen Wortes. Das Netz verfügt über mindestens eine verdeckte Schicht, deren Neuronenanzahl 
der Dimension der zu erzeugenden Einbettungsvektoren entspricht. Das so konfigurierte Netz wird 
anschließend auf einem möglichst großen Korpus trainier(™| Da die Aufgabe darin besteht, das 


nächste Wort eines Textes vorherzusagen, müssen keine Ausgabebeispiele bereitgestellt werden 7] 
(siehe|Abschnitt 2.2.1). Durch das Training anhand dieser Pseudo-Aussage erlernt das Netz implizit 
Wortkontexte. Ist das Training abgeschlossen, bilden die Kantengewichte der verdeckten Schicht die 


Worteinbettungsvektoren. Um einen konkreten Vektor zu erhalten, wird dem Netz das entsprechende 
Wort präsentiert; die sogenannte Netzantwort (das heißt die Werte der Aktivierungsfunktionen 
der Neuronen der verdeckten Schicht) wird dann als Worteinbettungsvektor verwendet. Die 
entstandenen Vektoren repräsentieren das Wort anhand beobachteter Kontexte; die Vektoren 
können auch abseits von künstlichen neuronalen Netzen angewandt werden, beispielsweise können 
Vektordistanzmaße zum Vergleich der Vektoren benutzt werden. Allerdings können Worteinbettungen 
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Die Wörter werden dabei als /-aus-n-Vektoren repräsentiert. 
Derartige Klassifikationsprobleme sind eine Sonderform der überwachten Klassifikationsprobleme und werden als 
selbstüberwacht (engl. self-supervised) bezeichnet. 
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nur für Wörter erzeugt werden, die im Trainingsdatensatz aufgetreten sind; unbekannte Wörter werden 
(zumeist) auf den Null-Vektor abgebildet. Es existieren unterschiedlich Varianten zur Erzeugung von 
Worteinbettungen, die sich in technischen Details unterscheiden, etwa in der Definition der Pseudo- 
Aufgabe oder in der Anzahl der verdeckten Schichten. Bekannte Ansätze sind Word2Vec [Mik+13a} 
Mik+13b], GloVe [PSM14] und die Word2Vec-Weiterentwicklung fastTex1®|[Boj+17}\Jou+17]. Von 
den Entwicklern der jeweiligen Verfahren werden vortrainierte Vektoren, die nach den genannten 


Verfahren erzeugt wurden, für unterschiedliche Sprachen, verschiedene Dimensionen und trainiert 


auf unterschiedlichen Korpora, angeboten. 


2.3.17 Vortrainierte Sprachmodelle 


Vortrainierte Sprachmodelle (engl. pre-trained language model) sind Modelle, die mit Verfahren 
des maschinellen Lernens — zumeist unter Verwendung tiefer neuronaler Netze — auf umfangreichen 
Textkorpora trainiert wurden. Die Modelle bieten ein tiefes syntaktisches und semantisches 
Verständnis natürlicher Sprache. Darauf aufbauend können prinzipiell beliebige Problemstellungen 
der Computerlinguistik gelöst werden (sofern sich die Aufgabe auf ein Klassifikationsproblem 
abbilden lässt). Hierzu wird das vortrainierte Sprachmodell als Basis für ein neuronales Netz 
verwendet. An die letzte Schicht des Sprachmodells anschließend werden weitere Schichten 
angefügt, welche das eigentliche Problem lösen] Das auf diese Weise kombinierte Netz muss 
zwar auch trainiert werden, es werden aber deutlich weniger Trainingsinstanzen und -durchläufe 
(das heißt Epochen) benötigt als wenn ein neuronales Netz, das eine ähnliche Klassifikationsgüte 
erzielt, von Grund auf trainiert werden würde. Das vortrainierte Sprachmodell kann zudem für 


unterschiedliche Problemstellungen wiederverwendet werden. 


Die grundlegende Herangehensweise zur Erzeugung von Sprachmodellen ist dieselbe wie bei 


Worteinbettungen (siehe/Abschnitt 2.3.16); ein neuronales Netz wird anhand einer Pseudo-Aufgabe 


trainiert. Dementsprechend können auch die Netze, die bei der Erzeugung von Worteinbettungen 
entstehen, als vortrainierte Sprachmodelle aufgefasst werden; in der Praxis werden sie auch ebenso 
verwendet. Der Grund für die Entwicklung komplexerer Sprachmodelle ist der wesentliche Nachteil 
von Worteinbettungen: für jedes Wort wird genau eine Worteinbettung erzeugt. Das bedeutet, 
bei mehrdeutigen Wörtern überlagern sich die Bedeutungen. Ist eine der Bedeutungen dominant 
(das heißt tritt sie im Sprachgebrauch deutlich häufiger auf als alle anderen) verdeckt sie die 
anderen Bedeutungen; gibt es hingegen gleichwertige Bedeutungen, repräsentiert der zugehörige 
Worteinbettungsvektor das Mittel aus diesen Bedeutungen und ist daher nahezu wertlos. 


Um dieser Problematik entgegenzuwirken, sieht eine Weiterentwicklung von Worteinbettungen vor, 
Bedeutungsrepräsentationen in Abhängigkeit der (aktuellen) Wortumgebung zu erstellen. Zur Model- 
lerzeugung verwenden derartige Ansätze rekurrente neuronale Netze (siehe|Abschnitt 2.2.2). Der be- 
kannteste Vertreter dieser Art ist ELMo (kurz für Embeddings from Language Models) [Pet+18]. Zur 
Erzeugung des ELMo-Modells wurde ein bidirektionales LSTM verwendet (siehe [Abschnitt 2.2.2); 
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fastText ist in der Lage Teile von unbekannten Wörtern auf Teilwortvektoren abzubilden. 
Die Kombination von vortrainierten Sprachmodellen mit spezialisierten Schichten zur Lösung eines konkreten 
Gebiets wird dem Konzept des übertragenden Lernens (engl. transfer learning) zugeordnet |GBC16]. 


59 


2 Grundlagen 


dadurch können beidseitige Wortkontexte erfasst werden. ELMo kann als vortrainiertes Sprachmodell 
verwendet werden; alternativ werden auch Worteinbettungsvektoren bereitgestellt. 


Moderne Verfahren zur Erzeugung von vortrainierten Sprachmodellen legen den Fokus auf die 
Ausweitung des Kontextverständnisses. Dazu werden vor allem sehr tiefe neuronale Netze erstellt, 
das heißt es werden sehr viele verdeckte Schichten genutzt. Außerdem werden auch neuarti- 
ge Netzarchitekturen bzw. Techniken verwendet. Allen voran wird heutzutage die sogenannte 


Transformer-Architektur genutzt [|Vas+17]. Der größte Vorteil dieses Ansatzes ist der sogenannte 


Attention-Mechanismus; dieser erlaubt es dem Netz zu erlernen, welcher Teil der Eingabe für 
die Lösung der Problemstellung relevant ist. Besonders effektiv funktioniert dies, wenn mehrere 
Transformer zusammengeschaltet werden. Hierzu werden Transformer wiederum in Schichten 
angeordnet. Ein weiterer Vorteil der Transformer-Architektur ist, dass keine rekurrenten neuronalen 
Netze verwendet werden müssen, um Wortumgebungen zu erfassen; es genügen einfache vorwärts 
gerichtete Netze. Dies hat wiederum den Vorteil, dass große Textmengen am Stück verarbeitet werden 
können (und nicht sequenziell eingelesen werden). In der Folge können Zusammenhänge zwischen 
Wörtern und Phrasen in einem auf Transformern basierenden Sprachmodell unabhängig von der 
(Wort-)Reihenfolge erkannt werden. Ein inzwischen weit verbreitetes vortrainiertes Sprachmodell, 
das auf Grundlage der Transformer-Architektur erzeugt wurde, ist das von Google Research erzeugte 
BERT (kurz für Bidirectional Encoder Representations from Transformers) |Dev+19]. Für BERT 
wurden Transformer bidirektional verknüpft und in 24 Schichten angeordnet. Diese Netzarchitektur 


wurde anschließend auf einem Korpus trainiert, das aus der vollständigen englischsprachigen 
Wikipedia (ca. 2,5 Milliarden Wörter) und zusätzlich aus 11038 Büchern (ca. 800 Millionen Wörter) 
besteht. Die Pseudo-Aufgabe besteht darin, ausgeblendete Textpassagen vorherzusagen; hierzu 
wurden 15% der Eingabe ausgeblendet. Neben dem vollständigen Modell (BERT, Arce) gibt es 
auch eine reduzierte Variante, die nur aus zwölf Transformer-Schichten besteht (BERTpasg). Beide 
Modelle ermöglichen die semantische Interpretation natürlicher Sprache. Daher basieren viele 
Lösungen zu Aufgabenstellungen der Computerlinguistik, die den Stand der Technik darstellen, 
inzwischen auf einem BERT-Modell. Der wesentliche Nachteil der Modelle ist ihr Speicherbedarf. 
Um BERT pase zu verwenden, wird eine Grafikkarte mit mindestens 12 GB Arbeitsspeicher benötigt. 
Daher werden inzwischen weitere reduzierte Modelle angeboten, die zwar ein weniger tiefes, aber 


je nach Anwendungsgebiet ausreichendes Sprachverständnis ermöglichen [/Tur+19]. Inzwischen 


bieten andere Ansätze noch größere Sprachmodelle, die eine noch weitreichendere semantische 
Interpretation der Sprache ermöglichen sollen, wie beispielsweise XLNet |Yan+20] oder GPT-3 
(kurz für Generative Pre-trained Transformer 3) |Bro+20]. 


2.4 Evaluationsmetriken 


Die im Folgenden beschriebenen Metriken dienen der Bemessung der Qualität einer durch ein 
Verfahren erzeugten Ausgabe, wie es zur Evaluation üblich ist. Ein gebräuchliches Vorgehen zur 
Qualitätsmessung ist es, Ausgaben als Klassifikation aufzufassen und diese mit einem Goldstandard 
zu vergleichen. Das bedeutet, für ein Eingabedatum werden die erwarteten Ausgaben festgelegt. 
Diese können anschließenden mit der Ausgabe des Verfahrens verglichen werden. Handelt es sich um 
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die Tragik des Lebens 


tp tn In tp 


Abbildung 2.18: Bewertung von Ausgaben eines beispielhaften Klassifikators, der Artikel in Texten erkennen soll: 
Die erste Zeile zeigt die zu klassifizierenden Einheiten (Text). In der zweiten Zeile sind griin hinterlegt die erwarteten 
Klassifikationen dargestellt; die dritte zeigt rot hinterlegt die durch den Klassifikator emittierten Klassifikationen. In der 
vierten Zeile sind die Bewertungen der Klassifikationen angegeben. 


ein echtes Klassifikationsproblem — wie es in dieser Arbeit bei den meisten betrachteten Verfahren 
der Fall ist - können die erzeugten Klassifikationen bestimmten Teilen der Eingabe (sogenannten 
Einheiten) zugeordnet werden. Beispielsweise entsprechen die zu klassifizierenden Einheiten bei 


der Erkennung von Wortarten (siehe|Abschnitt 2.3.4.3) den Token und die emittierten Wortarten 


den Klassifikationsergebnissen, die wiederum mit einem Goldstandard, wie dem WSJ Corpus, 
verglichen werden können (siehe Abschnitt 2.3.3). Beim Vergleich von Goldstandard und erzeugter 
Ausgabe, können folgende vier Fälle auftreten: 


e richtig positiv: Als richtig positives Ergebnis (engl. true positive, kurz tp) bezeichnet man 
den Ausgang, bei dem eine zu klassifizierende Einheit durch das Verfahren die erwartete 
Klassifikation erhalten hat, das heißt richtig klassifiziert wurde. 


e richtig negativ: Als richtig negatives Ergebnis (engl. true negative, kurz tn) bezeichnet man 
den Ausgang bei dem eine zu klassifizierende Einheit laut Goldstandard nicht klassifiziert 
werden sollte und auch durch das Verfahren keine Klassifikation erfahren hat. 


e falsch positiv: Als falsch positives Ergebnis (engl. false positive, kurz fp) bezeichnet man den 
Ausgang bei dem eine zu klassifizierende Einheit laut Goldstandard nicht klassifiziert werden 
sollte, aber durch das Verfahren fälschlicherweise klassifiziert wurde. 


e falsch negativ: Als falsch negatives Ergebnis (engl. false negative, kurz fn) bezeichnet man 
den Ausgang bei dem eine zu klassifizierende Einheit laut Goldstandard klassifiziert werden 
sollte, aber durch das Verfahren nicht klassifiziert wurde. 


Abbildung 2.18 zeigt die Klassifikatonsergebnisse eines beispielhaften Klassifikators; der Vergleich 


mit den erwarteten Ergebnissen führt jeweils zu einer Zuordnung zu den zuvor beschriebenen Fällen. 
Diese Art der Bewertung von Klassifikationsergebnissen ist nur für binäre Klassifikationsprobleme 
zulässig. Soll die Fallunterscheidung für Mehrfachklassenprobleme angewendete werden, müssen 
die Fälle je Klasse bestimmt werden. Auch die im Folgenden beschriebenen Metriken müssen je 
Klasse berechnet werden, können anschließend jedoch gemittelt werden, um eine Gesamtbewertung 
zu erhalten.Nachfolgend werden zunächst Metriken zur Bewertung von Klassifikationensergebnissen 
beschrieben, welche die zuvor beschriebenen Fälle zugrunde legen: Ausbeute, Präzision F3-Maß und 
Genauigkeit. Anschließend werden mit der Wortfehlerrate, BLEU und der Übersetzungsfehlerrate 
Metriken beschrieben, die zur Bewertung von Verfahren zur automatischen Spracherkennung 


verwendet werden (siehe [Abschnitt 2.3.7). Zuletzt wird mit dem Fleiss-Kappa ein Maß zur 


Bestimmung der Übereinstimmung von Bewertungen vorgestellt. 
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2.4.1 Präzision 


Die Präzisionen gibt den Anteil der korrekten Klassifikationen eines Klassifikators gegenüber allen 
getätigten Klassifikationen an. Das bedeutet, neben den korrekten Klassifikationen, gehen auch 
fälschlich getätigte Klassifikationen in die Normierung ein: 


t 
Präzision = — (2.10) 
tp + fp 
Ein Klassifikator erzielt demnach hohe Präzisionswerte, wenn nur wenige Fehlklassifikationen (das 
heißt zusätzliche, fehlerhafte Klassifikationen) stattfinden. 


2.4.2 Ausbeute 


Die Ausbeute gibt den Anteil der korrekten Klassifikationen eines Klassifikators gegenüber den 
erwarteten Klassifikationen (eines Goldstandards) an. Das bedeutet, neben den korrekten Klassifika- 
tionen, gehen auch die fehlenden Klassifikationen (das heißt nicht gefundene Klassifikationen des 
Goldstandards) in die Normierung ein: 


Ausbeute = tp (2.11) 
to + fn 


Ein Klassifikator erzielt demnach hohe Ausbeutewerte, wenn möglichst viele der erwarteten 
Klassifikationen auch durch den Klassifikator klassifiziert werden. 


2.4.3 F-Maße 


Das Fg-Maf kombiniert die Bemessung von Ausbeute und Präzision; 5 kann variiert werden, um die 
Gewichtung von Ausbeute und Präzision bei der Berechnung anzupassen. Das allgemeine Fg-Maß 
ist wie folgt definiert: 


Präzision : Ausbeute (1+ B?) + 
Fg = (1+ 6’). = p 2.12 
pares (82 - Präzision) + Ausbeute (1+ 8?) -tp +82- fat fp (2.12) 


Wird f gleich 1 gesetzt, entspricht das Fg-Maß dem harmonischen Mittel von Ausbeute und 
Präzision: 


KaR Pen ‚Ausbeute _ tp (2.13) 
Präzision + Ausbeute tp + 5(fp + fn) 


Wird für 8 ein Wert kleiner 1 gewählt, wird die Präzision höhere gewichtet. Das bedeutet, der Anteil 
des Präzisionswert am Ergebnis steigt. Das Fo 5-MaB gewichtet beispielsweise die Präzision doppelt 
so hoch wie die Ausbeute: 
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Präzision - Ausbeute u 1,25 + tp 
(0,25 - Präzision) + Ausbeute 1,25 - tp +0,25- fn + fp 


Fos = 1,25. 


, 


(2.14) 


Für Werte von ß, die größer als 1 sind, tritt der gegenteilige Effekt ein. Dann wird die Ausbeute 
höhere gewichtet, im Fall des Fa-Maßes doppelt so hoch: 


Präzision - Ausbeute u 5 + ty 
(4- Präzision) + Ausbeute 5-tp+4-fnt fp 


Fo=5- (2.15) 


2.4.4 Genauigkeit 


Die Genauigkeit gibt an, wie korrekt ein Klassifikator insgesamt klassifiziert. Im Gegensatz zu 
Präzision, Ausbeute und F3-Maß bezieht die Genauigkeit auch die korrekterweise nicht klassifizierten 


Einheiten (frue negatives) mit ein: 


ty + tr 
tp tin + Jo + fn 


Genauigkeit = (2.16) 


Die Genauigkeit bietet grundsätzlich die präziseste Bewertungsmöglichkeit von Klassifikatoren. Bei 
Klassifikationsproblemen, welche die Klassifikation von nur wenigen Einheiten erfordern, ist der 
Anteil der (erwarteten) richtig negativen Klassifikationen überproportional groß. Dadurch ist der 
Genauigkeitswert für diese Probleme sehr hoch (und überschätzt die Qualität der Klassifikatoren). 
Daher wird im Allgemeinen das Fg-Ma8 zur Bewertung von Klassifikatoren bevorzugt. 


Die Genauigkeit eignet sich allerdings zur Bewertung von Klassifikatoren bei Problemstellungen, 
welche die Klassifikation aller (oder nahezu aller) Einheiten erfordern, wie beispielsweise der 


Wortarterkennung (siehe Abschnitt 2.3.4.3). 


2.4.5 Falsch-Positiv-Rate 


Die Falsch-Positiv-Rate (kurz f,-Rate) gibt den Anteil der fehlerhaften (bzw. überzähligen) 
Klassifikationen eines Klassifikators gegenüber allen nicht zu klassifizierenden Einheiten (eines 
Goldstandards) an. Das bedeutet, neben den Fehlklassifikationen (fp) gehen auch korrekterweise 
nicht durchgeführten Klassifikationen (tn) in die Normierung ein: 


Jo 
fp + tn 


Falsch-Positiv-Rate = (2.17) 


Im Gegensatz zu den zuvor eingefiihrten Metriken sollte die Falsch-Positiv-Rate eines Klassifikators 
möglichst gering sein. Ein Klassifikator erzielt niedrige Werte, wenn möglichst wenige Einheiten 
fälschlicherweise einer Klasse zugeordnet wurden. 
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2.4.6 Wortfehlerrate 


Die Wortfehlerrate (engl. word error rate, kurz WER) wird zur Bewertung von Systemen zur 
automatischen Spracherkennung verwendet JMOSb]. Sie gibt den Anteil der fehlerhaften 
Wörter einer durch ein System erzeugten Hypothese gegenüber einer Referenztranskription an. Hierzu 
werden die Änderungen gezählt, die nötig sind, um die Hypothese c in die Referenztranskription r 
zu überführen. Mögliche Operationen sind Vertauschungen S, Entfernungen D und Hinzufiigungen 
I von Wörtern (bzw. Token): Die Summe der Änderungen wird über die Länge (Wortanzahl) der 
Referenztranskription normiert: 


S(c,r) + D(c,r) + (cr) 


|worter(r)| 


WER(c,r) = 


(2.18) 


Die Wortfehlerrate ist abgeleitet von der Levenshtein-Distanz zur Bestimmung von Unterschieden 
zweier Zeichenketten (siehe|Abschnitt 2.3.13.1). 


2.4.7 BLEU 


BLEU (kurz für bilingual evaluation understudy) ist eigentlich ein Maß zur Bewertung von 


automatischen Übersetzungen [Pap+02]. Hierzu wird eine generierte Übersetzung mit einer Menge 


von (durch Menschen angefertigten) Referenzübersetzungen verglichen und Übereinstimmungen 
gezählt. Als Übereinstimmung können entweder einzelne Wörter gelten oder N-Gramme. BLEU 
ist somit eine Variante des Präzisionsmaßes (siehe|Abschnitt 2.4.1), welches den Vergleich gegen 
mehreren Referenzen und die Betrachtung von N-Grammen ermöglicht. Formal wird das BLEU-Maß 


für eine generierte Übersetzung c in Abhängigkeit zur Menge der Referenzübersetzungen R wie 
folgt berechnet: 


2 max(Anzahlpegrenze(n-Gramm, r;)) 
BLEU(c, R) = Pile, R) — n-Grammec Ti 


2.19 
|n-Gramm|c u 


Im Zähler wird je N-Gramm der generierten Übersetzungen das maximale Auftreten in einer der 
Referenzübersetzungen bestimmt; dieser Wert wird auf die Anzahl der Vorkommen des N-Gramms 
in der generierten Übersetzungen beschränkt. Die Werte je N-Gramm werden summiert. Normiert 
wird diese Summe über die Anzahl der in der generierten Übersetzung enthaltenen N-Gramme. 
Es zeigt sich, dass Übersetzungen, die für das BLEU-Maß bei Verwendung von Tetragrammen 
(BLEU-4) hohe Bewertungen erhalten, auch von menschlichen Bewertern als besonders passend 


angesehen werden [Pap+02]; daher wird zumeist BLEU-4 verwendet. 


Das BLEU-Maß wird auch zur Bewertung von Systemen zur automatischen Spracherkennung 
verwendet. Hierzu wird eine erzeugte Hypothese als automatische Übersetzung angesehen und 
händische Transkriptionen als Referenzübersetzungen. 
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2.4.8 Übersetzungsänderungsrate 


Die Übersetzungsänderungsrate (engl. translation edit rate, kurz TER) ist ebenfalls ein Maß zur 
Bestimmung der Qualität automatischer Übersetzungen, welches auch zur Bewertung von Systemen 


zur automatischen Spracherkennung verwendet wird [Sno+06]. Die Übersetzungsänderungsrate 


eines Kandidaten c in Abhängigkeit einer Menge von Referenzkandidaten R wird wie folgt berechnet: 


min (e(c,r;)) 
TER(c, R) = = (2.20) 
i. „  jwörter(r;)| 
i=0,r;ER 


Die Funktion e(a, b) im Zähler bestimmt die minimal nötigen Änderungen, um den Kandidaten 
in eine der Referenzübersetzungen zu überführen. Die erlaubten Operationen zur Änderung sind, 
wie bei der Bestimmung der Wortfehlerrate (siehe [Abschnitt 2.4.6), Vertauschungen, Entfernungen 
und Hinzufügungen; die Übersetzungsänderungsrate führt allerdings als weitere Operation die 


Verschiebung eines Wortes an eine beliebige andere Stelle ein. Der erhaltene Wert wird über das 
arithmetische Mittel der Längen der Referenzübersetzungen normiert. 


Zur Bestimmung der erweiterten Übersetzungsänderungsrate (engl. translation edit rate plus, 
kurz TERp) |Sno+09] werden die Kosten der einzelnen Änderungsoperationen geändert; wäh- 
rend bei TER alle Operationen den fixen Kostenwert 1 besitzen, verwenden die Autoren einen 


Optimierungsalgorithmus, um Kosten für einzelne Operationen festzulegen. 


2.4.9 Fleiss-Kappa 


Das Fleiss-Kappa ist ein Maß zur Bewertung der Inter-Annotator-Übereinstimmung [Fle71]; das 


bedeutet, es bestimmt, wie einig sich (menschliche) Bewerter bei der Vergabe von Etiketten, 


Beurteilungen oder Kategorien sind. Im Gegensatz zu Cohens Kappa [[Coh60] kann das Kappa nach 


Fleiss zur Bewertung der Übereinstimmung von mehr als zwei Bewertern verwendet werden. Das 
Fleiss-Kappa x ist wie folgt definiert: 


u 1 
pi ag 
7 


Se (2.21) 
1- u 


N ist die Menge der zu bewertenden Einheiten, d die Anzahl der Bewerter und z die Anzahl der 
möglichen (Bewertungs-)Kategorien; p; gibt die Übereinstimmung der Bewerter bei der Bewertung 
der 7-ten Einheit an und wird wie folgt bestimmt: 


Pi = TEDE = dij) (2.22) 


Dabei entspricht d;; der Anzahl der Bewerter, die sich bei der Bewertung der i-ten Einheit für die 
Kategorie j aus der Menge der Kategorien Z entschieden haben. 
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„I suspect that machines to be programmed in our native tongues 
— be it Dutch, English, American, French, German, or Swahili — 
are as damned difficult to make as they would be to use.“ 


— Edsger W. Dijkstra 


Dieses Kapitel betrachtet verwandte Arbeiten aus den Bereichen Programmierung mit natiirlicher 
Sprache und Architekturen für Sprachverständnissysteme in diesem Kontext. Die Idee, Compu- 
tersysteme mit natürlicher Sprache zu steuern und zu programmieren, ist keineswegs neu. Der 


Abschnitt 3.1/beleuchtet kurz die Historie dieses Forschungsgebiets. Bei modernen Systemen für das 


Programmieren mit natürlicher Sprache gilt es im Wesentlichen zwei Arten zu unterscheiden: Die 
erste Gruppe richtet sich an Software-Entwickler (Abschnitt 3.2); diese Systeme sind darauf ausge- 
richtet, Experten bei der Erstellung von Software zu unterstützen. Die zweite Gruppe richtet sich 
gezielt an Endnutzer mit keiner oder kaum Programmiererfahrung (Abschnitt 3.3); die Zielsetzung 
dieser Systeme ist, Laien in die Lage zu versetzen, Computersystemen komplexe Befehle zu erteilen 


beziehungsweise neue Funktionalität in Form von Skripten oder Makros anzulernen. Neben diesen 
beiden Hauptströmungen gibt es eine Reihe von Arbeiten aus angrenzenden Forschungsgebieten 
(Abschnitt 3.4). Hierzu zählen die Erzeugung automatischer Testfälle aus natürlichsprachlichen 
Beschreibungen, das Abfragen von Informationen aus Datenbanken mit natürlicher Sprache und 


virtuelle Assistenzsysteme. Zuletzt werden alle verwandten Arbeiten anhand der in|Abschnitt 1.2 
I 


aufgestellten Zieldefinition mit Prof, verglichen (Abschnitt 3.5 


3.1 Historie 


Bereits 1966 fordert Jean Sammet, dass der Umgang mit Computersystemen für den Menschen 
möglichst natürlich gestaltet werden müsse, um die Produktivität zu maximieren [Sam66]. Für 
Sammet ist dies einzig durch die Verwendung natürlicher Sprache zu erreichen. Sie schlägt nicht 
nur vor, die Steuerung von Computersystemen mit Alltagssprache zu ermöglichen, sondern auch 
die Programmierung. Die Umsetzbarkeit von Sammets Idee wird jedoch schnell von Kritikern 
angezweifelt und teils sogar theoretisch widerlegt [Dij63}|Dij64}|Hil72}|Dij79]. Die Kritiker scheinen 
zunächst im Recht, denn nur langsam entwickeln sich erste Systeme. Ein erster Durchbruch gelingt 


' Die in diesem Kapitel diskutierten verwandten Arbeiten stellen eine Auswahl dar; die ausgewählten Publikationen 


sollen ein möglichst umfangreichen Gesamteindruck hinsichtlich aufgestellter Problemstellungen (bzw. Zielsetzungen), 
verwendeter Techniken, Einschränkungen (bzw. Übertragbarkeit) usw. bieten. 
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Terry Winograd mit SHRLDU, einem System zur Dialog-basierten Steuerung eines virtuellen 


Roboterarmes, der geometrische Figuren bewegt [Win72]. SHRLDU weist augenscheinlich ein 


tiefes Verständnis natürlicher Sprache auf. Dieses erreicht Winograd mit einer Ontologie-artigen 
Darstellung der Szenerie und einem umfangreichen Satz von Inferenzregeln. Weitere ähnliche 
Spezialsysteme entstehen, wie das von Ballard und Biermann entwickelte NLC zur sprachgesteuerten 
Tabellenkalkulation [BB79} BB80} /BBS83]. Ihr System ermöglicht es, im Dialog mit dem Nutzer 
Funktionsfolgen zu erlernen, ähnlich den Makros, wie sie in modernen Tabellenkalkulationssoftware 


üblich sind. Auch Ballard und Biermann verwenden für NLC einen umfangreichen Regelsatz, den 
sie in Kombination mit einem spezialisierten Zerteiler einsetzen. Die grundsätzliche Möglichkeit, 
Computersysteme mit natürlicher Sprache, wenn auch zunächst rein textuell, zu steuern und auch zu 
programmieren, konnte also nachgewiesen werden. Allerdings wird deutlich, dass die Systeme nur 
in sehr eingeschränkten Domänen funktionieren und von einem generellen Sprachverständnis weit 
entfernt sind. Da dieses auch konzeptionell aufgrund der Verwendung komplexer Regelwerke und 
deren mangelnder Skalierbarkeit nicht umsetzbar erscheint, geht das Interesse an derartigen Systemen 
zunächst stark zurück. Erst durch theoretische Studien, wie denen von Pane et al. über die verwendete 


Sprache von Laien zur Lösung programmatischer Problemstellungen [PRMO1} |!PMO6] oder der 


Machbarkeitsstudie zur Programmierung mit natürlicher Sprache von Lieberman und Liu [LLO6], 


erhält das Forschungsgebiet neue Impulse. Neue Systeme zur Unterstützung von Entwicklern (siehe 
[Abschnitt 3.2), für die Entwicklung einfacher Programme durch Endnutzer mit natürlicher Sprache 
(siehe [Abschnitt 3.3) und für ähnliche Aufgaben, wie die Erzeugung von automatischen Tests aus 
Beschreibungstexten oder Abfragen von Informationen aus Datenbanken über natürlichsprachliche 
Fragen (siehe Abschnitt 3.4) entstehen. Durch die rasante Weiterentwicklung der Rechnerlinguistik 
in den letzten Jahren und das zunehmende Interesse großer Technologieunternehmen wie Apple, 


Microsoft, IBM und Google, erfährt auch die Idee der Programmierung mit natürlicher Sprache 
wieder gesteigerte Aufmerksamkeit. So beschreibt eine der Vergleichsaufgaben des Jahrgangs 
2017 der Association for Computational Linguistics ein System zur konversationellen Endnutzer- 
Programmierung von Makros für virtuelle Assistenten (SemEval-Task 11, 2017 der Association 


of Association for Computational Linguistics) ISHFI7]?| Auch wenn diese Aufgabe nur einfache 


Funktionskombinationen vorsieht und die Domäne auf virtuelle Assistenten eingeschränkt ist, zeigt 
sie doch das Interesse der Forschungsgemeinde an dieser Zielsetzung. 


3.2 Unterstützung von Entwicklern 


Die erste Kategorie von Systemen für Programmierung mit natürlicher Sprache richtet sich 
an Software-Entwickler. Das Ziel dieser Systeme ist die aktive Unterstützung des Entwicklers 
beim Erstellen von Software, indem übliche Tätigkeiten über eine konversationelle Schnittstelle 
zugänglich gemacht werden. Die Unterstützung reicht von direkter Quelltexteingabe mittels Sprache 
über Entwurfsextraktion aus Textdokumenten bis hin zur Erzeugung von Programmschnipseln oder 
Makros. Systeme dieser Art unterliegen der Annahme, dass auch für Entwickler die natürliche 


? SemEval-Task 11, 2017: http: //alt.qcri.org/semeval2017/task1 1/| zuletzt besucht am 24.02.2021. 
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Sprache die einfachste Möglichkeit darstellt, Ideen auszudrücken und die Entwicklung vereinfacht 
oder beschleunigt werden kann. Die Systeme zur Unterstützung von Entwicklern können hinsichtlich 


ihrer Zielsetzung beziehungsweise ihres Einsatzgebietes in drei Gruppen untergliedert werden. 


3.2.1 Quelltext-Diktat 


Die erste Gruppe bilden Systeme zur Quelltexteingabe über eine Sprachschnittstelle. Diese erlauben 
es Entwicklern, verbalisierten Quelltext zu diktieren. Die Eingabe wird dabei nicht analysiert, 
sondern lediglich wortwörtlich übersetzt. Derartige Systeme verlassen sich insbesondere darauf, dass 
der Nutzer ausschließlich semantisch korrekten Quelltext diktiert. Das bedeutet, dass diese Systeme 
keine semantische Diskrepanz zwischen natürlicher Sprache und Programmiersprache überbrücken 
müssen. Stattdessen muss lediglich gewährleistet werden, dass die syntaktische Übersetzung 
korrekt vollzogen wird. Daher liegt der Fokus dieser Systeme auf der zuverlässigen Erkennung 
von Programmiersprachen-typischen Direktiven. Das bedeutet, die Systeme erwarten zum Beispiel 
nach der Angabe einer Bedingung (über ein /f-Statement) auch die Beschreibung der zugehörigen 
Konsequenz (als Then-Block). Für Systeme, die gesprochene Diktate unterstützen, bedeutet diese 
Fokussierung unter anderem auch, dass der verwendete Spracherkenner (beziehungsweise dessen 
Modelle) angepasst werden, sodass zum Beispiel das Wort throw eher erkannt wird als das 
phonetisch ähnliche though. Neben der Eingabe von Quelltext werden meist auch einfache Befehle 
zur Navigation in der Entwicklungsumgebung unterstützt. Als Motivation für diese Art von 
Systemen gilt die intuitive Benutzung der natürlichen Sprache durch den Menschen, die es selbst 
erfahrenen Entwicklern erlauben soll, Programme einfacher und schneller zu erstellen. Das von 


Price et al. entwickelte Werkzeug NaturalJava ermöglicht die textuelle Eingabe von Java-Quelltext 


mittels natürlicher Sprache [Pri+00]. NaturalJava nutzt Techniken aus dem Forschungsgebiet der 


Informationsrückgewinnung (engl. information retrieval), um die Rollen von Kasus-Rahmen (engl. 


case frames) zu besetzen (siehe|Abschnitt 2.3.4.8); vollständige Kasus-Rahmen werden anschließend 


in Java-Quelltext überführt. Das Einsprechen von Java-Quelltext erlaubt Spoken Java von Begel 
und Graham [Beg04} BG03l. Laut der Autoren ist Spoken Java für Entwickler gedacht, die ihre 
Hände temporär oder dauerhaft nicht für die Quelltexteingabe mittels Tastatur verwenden können, 


zum Beispiel infolge einer Sehnenscheidenentzündung. VoiceCode, entwickelt von Désilets et al., 
unterstützt gesprochene Quelltexteingaben für beliebige Programmiersprachen [DFNO6|. Keine der 
Publikationen zu den drei Werkzeugen beinhaltet eine Evaluation; stattdessen wird jeweils anhand 
beispielhafter Eingaben die Funktionsweise demonstriert. Die Beispiele sind aber nicht umfangreich 


genug, um die Fähigkeiten und Grenzen des jeweiligen Ansatzes abschätzen zu können. 


3.2.2 Unterstützung des Programm-Entwurfs 


Systeme der zweiten Gruppe assistieren dem Entwickler beim Programm-Entwurf. Im Gegensatz zu 
den Systemen zur direkten Quelltexteingabe erlauben diese freie und natürliche Formulierungen. 
Der Nutzer übergibt dem System einen deskriptiven Text, meist in Form einer Geschichte, wie zum 
Beispiel eine Anwendererzählung (engl. user story). Das System erzeugt daraus Klassen-Skelette und 
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Methodensignaturen und gegebenenfalls Attribute. Die erzeugten Skelette enthalten jedoch keine 
Funktionalität und sind nicht ausführbar. Vielmehr sollen sie als Ausgangspunkt für den Entwurf 
und die anschließende Implementierung dienen. Das von Liu und Lieberman vorgestellte Metafor 
erstellt Klassen-Skelette, Methodensignaturen und Attribute aus Prosatexten [LL05a} [LLO5b]. 
Metafor verwendet hierfür einen angepassten Zerteiler, der natürlichsprachliche Sätze in sogenannte 
SVOO-Strukturen überführt. Die SVOO-Strukturen dienen als abstrakte Darstellung einzelner im 
Satz enthaltener Handlungen, bestehend aus einem Subjekt, einem Prädikat und einem direkten 


sowie einem indirekten Objekt. Einzelne SVOO-Strukturen werden anschließend regelbasiert in 
Programmkonstrukte überführt. Die verwendeten Regeln orientieren sich dabei am Abbott’schen 
Verfahren [Abb83]; das bedeutet, dass unter anderem Subjekte und Objekte in Klassen und 
Verben in Methoden überführt werden. Die Ähnlichkeit der Übersetzungsregeln zu den von Abbott 


entwickelten unterstreichen die Zielsetzung, den Entwickler lediglich beim Entwurf unterstützen zu 
wollen. Sowohl die angepassten Grammatiken als auch die Übersetzungsregeln beruhen auf einer 
systematischen Untersuchung der englischen Sprache auf ihre Eignung, programmatische Semantiken 


auszudrücken [LL04]. Die Nützlichkeit von Metafor wurde in einer Nutzerstudie evaluiert: Dreizehn 


Studenten, davon sieben mit mittlerer und sechs mit geringer Programmiererfahrung, sollten 
kleine Programme entwickeln. Dabei sollten sie zum einen frei entwerfen (das heißt mit Stift 
und Papier) und zum anderen Metafor beim Entwurf zu Hilfe nehmen?| Die Auswertung ergab, 
dass vor allem Programmieranfänger von Metafor profitieren; alle Probanden gaben aber an, 
die Unterstützung durch Metafor gegenüber dem freien Entwurf zu bevorzugen. Mihalcea et 
al. präsentieren mit NLP for NLP eine Weiterentwicklung von Metafor |MLLO6]: Diese kann 
einerseits zusätzlich wiederholende Aktionen erkennen und daraus Schleifen synthetisieren und 


andererseits Aussagen deuten, die lediglich als Kommentare dienen (und entsprechend in Programm- 
Kommentare überführen). Außerdem enthält die Publikation eine quantitative Untersuchung der 
Sprachverständnisfähigkeiten des (erweiterten) Metafor-Systems: Anhand von 25 Prosatexten, die 
aus Aufgabenbeschreibungen für Programmieranfänger entnommen wurden, wurde die Korrektheit 
der Anweisungs- und Schleifensynthese analysiert. Die Autoren ermittelten für die Generierung von 
Anweisungen eine Präzision von 0,860 bei einer Ausbeute von 0,754. Schleifen werden weniger 
treffsicher erzeugt; die erzielte Präzision beträgt aber immerhin 0,806 und die Ausbeute 0,714. 
Diese Ergebnisse unterstreichen, dass das Metafor-System einen vielversprechenden Ansatz zur 
Erzeugung von Programm-Skeletten darstellt; allerdings ist ungewiss, ob auf Basis des Ansatzes 
(durch entsprechende Weiterentwicklungen) auch ausführbarer Quelltext generiert werden könnte. 


3.2.3 Synthese von Programmschnipseln und Makros 


Die dritte Gruppe von Systemen liefert dem Entwickler aus natürlichsprachlichen Anfragen 
synthetisierte Programmschnipsel, Makros oder ähnliches. Im Gegensatz zu den zuvor diskutierten 
Ansätzen ist die Idee hinter diesen Systemen, die eigentlichen Arbeitsabläufe des Entwicklers 


Bei der Formulierung der Prosatexte zur Eingabe in Merafor wurden die Probanden durch den Experimentator 
unterstützt; das bedeutet, der Experimentator änderte einzelne Formulierungen, wenn diese von den SVOO-Strukturen 
nicht erfasst werden können. Eine Bewertung der Fähigkeit von Metafor, natürliche Sprache zu interpretieren, kann 
daher nicht stattfinden. 


70 


3.2 Unterstützung von Entwicklern 


unberührt zu lassen. Stattdessen soll nur gezielt bei der Umsetzung (zumeist kleiner) Teilschritte 
unterstützend eingegriffen werden. Hierbei wird angenommen, dass Entwickler Ideen für Makros, 
neue Funktionen oder Programmabschnitte vor der eigentlichen Umsetzung zunächst verbalisieren. 
Diese Systeme werden unter der Arbeitshypothese entwickelt, dass die passenden Programmschnipsel 
auch direkt aus der natürlichsprachlichen Beschreibung synthetisiert werden können. Die Synthese 
ist vergleichsweise einfach und zeitsparend gegenüber der Einarbeitung eines Entwicklers in eine 
API und zudem hinreichend korrekt, zumal das Ergebnis vom Entwickler überprüft werden kann. Die 
meisten dieser Systeme erlauben die Verwendung alltäglicher Sprache und schränken die möglichen 
Formulierungen nicht oder nur geringfügig ein. Die Herausforderung, korrekte Funktionsaufrufe 


beziehungsweise Skripte zu synthetisieren, ist für die hier beschriebenen Systeme im Vergleich zu 


denen in|Abschnitt 3.3|geringer, da die erzeugten Skripte vergleichsweise kurz sind und angenommen 


werden kann, dass von Entwicklern formulierte Anfragen exakter formuliert werden als von Laien. 


Gulwani und Marron präsentieren mit NLyze ein System, das erfahrene Nutzer dabei unterstützt, 
Makros für die Tabellenkalulationssoftware Microsoft Excel zu erstellen |GM14]. Der Nutzer kann 
die gewünschte Aktionsfolge in alltäglicher Sprache (in Textform) beschreiben und sich dabei 


auch auf Tabelleninhalte oder Spalten- und Zeilenbezeichner beziehen. In einer umfangreichen 
Evaluation konnte gezeigt werden, dass die Generierung von Makros durchgängig in weniger als 
20 Millisekunden gelingt; das System ist somit echtzeitfähig. In einer Nutzerstudie gelang es 
dem System außerdem in 90% der Fälle, die korrekte Aktionsfolge für eine natürlichsprachliche 
Funktionsbeschreibung zu erzeugen. Die gewählten Aufgaben waren aber vergleichsweise einfach; 
außerdem wurde den Probanden die Funktionsweise des Systems zunächst anhand einer Reihe von 
Beispielen demonstriert, sodass eine Beeinflussung (der Formulierung der Beschreibungen) der 
Probanden nicht auszuschließen ist. 


Andere Ansätze finden passende API-Funktionen zu natürlichsprachlichen Anfragen von Ent- 
wicklern RK17]. Dabei werden Genauigkeiten zwischen 21% und 45% erzielt (je nach 
API und bei ausschließlicher Betrachtung der höchstbewerteten Vorschläge). In den genannten 
Publikationen werden die Ansätze allerdings nur anhand von synthetischen Beispielen evaluiert, die 
von den jeweiligen Autoren erstellt wurden. Weiterführenden Ansätzen, wie dem von Raghothaman 


entwickelten SWIM, gelingt es, zusammenhängende Programmschnipsel zu erzeugen [RWHI6]. In 


einer Evaluation anhand von (echten) Suchmaschinenanfragen konnten die Autoren zeigen, dass 
in 44% der Fälle unter den fünf von SWIM am höchsten bewerteten Vorschlägen der zur Anfrage 
passende Programmschnipsel enthalten isf] Gu et al. verwenden für dieselbe Zielsetzung rekurrente 


neuronale Netze [Gu+16]. In einer vergleichenden Evaluation anhand des SWIM-Datensatzes zeigen 


die Autoren, dass es mit diesem Ansatz gelingt, die Trefferquote unter den fünf am höchsten 
bewerteten Vorschlägen auf 50% zu steigern. 


Das Ziel, den Umgang mit Programmiersprachen natürlicher zu gestalten und insbesondere Program- 


mieranfänger den Einstieg zu erleichtern, verfolgen Wang et al. [Wan+17]]. Ihr System Voxelrun lernt 


interaktiv neue Aliase für bestehende API-Funktionen und ermöglicht auch die Komposition von 


einfachen Funktionssequenzen. Nutzer können in einer virtuellen 3D-Welt Objekte (aus vorhandenen 


* Das bedeutet, SWIM erzielt in der Evaluation eine Ausbeute@5 von 0,440. 
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Bausteinen) erstellen und Abläufe beschreiben. Zur Beschreibung wird eine Programmiersprache 
verwendet, die an die natürliche (englische) Sprache angelehnt ist (Beispiel: while not has color 
red [select left of this]). Verwendet ein Nutzer eine dem System unbekannte Funktion, wird er 
aufgefordert die erwartete Funktionalität anhand von Grundfunktionen zu beschreiben; auf diese 
Weise werden kontinuierlich neue (abstraktere) Funktionen erstellt. In einem Experiment, das über 
eine Schwarmauslagerungsplattform (engl. crowd-sourcing plattform) mit 45 Probanden durchge- 
führt wurde, konnten die Autoren nachweisen, dass Voxelrun wie erwartet funktioniert. Insgesamt 
gaben die Probanden Voxelrun über 100000 Anweisungen. Während das System zu Beginn 40% der 
Anweisung nicht verarbeiten konnte, sank der Anteil zum Ende des Experiments auf unter 11%. 
Das bedeutet, das System konnte das eigene Vokabular stetig erweitern; zum Ende des Experiments 
waren knapp 70% der Anweisungen der Probanden an das System zuvor erlernte. Voxelrun kann 
allerdings nur zur Programmierung der virtuellen 3D-Welt verwendet werden; inwieweit das Konzept 
auf andere Anwendungen übertragbar ist, wird von den Autoren nicht diskutiert. Der wesentliche 
Nachteil von Voxelrun ist, dass die zu verwendende Sprache einer Programmiersprache recht ähnlich 
ist und daher von Laien nicht ohne vorheriges Erlernen der Sprache verwendet werden kann. 


3.3 Endnutzer-Programmierung mit natürlicher 
Sprache 


Systeme für Endnutzer-Programmierung mit natürlicher Sprache sollen Laien ohne oder mit 
geringer Programmiererfahrung befähigen, einfache Programme zu entwickeln. Der Nutzer soll 
dabei seine Kreativität möglichst frei entfalten können. Das bedeutet insbesondere auch, dass 
alltägliche Sprache verwendet werden und jedes beliebige Zielsystem in beliebiger Systemumgebung 
(gemeinsam nachfolgend als Domäne bezeichnet) programmiert werden kann. In der Realität 
schränken nahezu alle bekannten Systeme entweder die Sprache oder die Domäne ein. Beides 
geschieht, um die Komplexität der Quelltext-Synthese zu begrenzen. Für die Erzeugung der Skripte 
aus natürlichsprachlichen Beschreibungen wird meist davon ausgegangen, dass das anzusprechende 
Zielsystem bereits grundlegende Funktionalitäten zur Verfügung stellt, zum Beispiel in Form einer 
API. Die Quelltext-Synthese besteht dadurch im Wesentlichen aus einer geeigneten Komposition 
von Grundfunktionalitäten. Gegebenenfalls müssen dem Skript noch Kontrollstrukturen, Variablen 
und ähnliches hinzugefügt werden. 


3.3.1 Syntax- und wissensbasierte Ansätze 


Interessante Einsichten zu den Herausforderungen des Programmierens mit natürlicher Sprache 
präsentieren Knöll und Mezzini bei der Beschreibung der Vision eines Systems namens Pega- 


sus |KM06]. Die Autoren argumentieren, dass es eine semantische Lücke zwischen natürlicher 


Sprache und bekannten Programmiersprachen gibt, die geschlossen werden muss, um zuverlässig 
mit natürlicher Sprache programmieren zu können. Diese Lücke entsteht vor allem dadurch, dass in 
Programmiersprachen alles explizit ausgedrückt wird, wohingegen natürliche Sprache viele implizite 
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Annahmen trifft. Diese reichen von impliziten Referenzen bis hin zu Annahmen über das Wissen 
des Gesprächspartners. Ist der Gesprächspartner ein Computersystem, muss alles Implizite durch 
die konversationelle Schnittstelle expliziert werden. Der in Pegasus angestrebte Ansatz verwendet 
die sogenannte /dea Notation, eine Ontologie-artige Darstellung von Konzepten der realen Welt. Ob 
die /dea Notation tatsächlich die semantische Lücke zwischen natürlicher und Programmiersprache 
schließt, kann nicht beurteilt werden, da Pegasus nie umgesetzt wurde. 


Little und Miller verfolgen hingegen einen stark simplifizierten Ansatz; sie synthetisieren erfolgreich 


einzelne Kommandos mithilfe einer einfachen Schlüsselwortsuche [LMO6]. Beispielsweise kann 


mithilfe des Befehls „refresh“ die Aktualisierung einer Internetseite in einem Browser angestoßen 
werden. In einer Nutzerstudie mit neun Probanden (fünf mit und vier ohne Programmierkenntnisse) 
gelingt es ihrem System in den meisten Fällen, den korrekten Befehl zu einer natürlichsprachlichen 
Anweisung auszuführen: Die Erfolgsquote betrug 84% für die Gruppe ohne Programmierkenntnisse 
und 95% für die Gruppe mit Programmierkenntnissen; allerdings benötigten die Probanden teilweise 
mehrere Versuche. Die 36 Aufgaben (aus der Domäne Internet-Browser) der Studie waren alle sehr 
einfach gewählt und konnten mit wenigen Wörtern beschrieben werden. Inwieweit der Ansatz auf 
komplexere Aufgabenstellungen oder andere Domänen übertragbar ist, wird von den Autoren nicht 
diskutiert, erscheint aber aufgrund der Einfachheit fraglich. 


SmartSynth von Le et al. erzeugt wiederum kurze Skripte für Smartphones aus englischsprachigen 
Beschreibungen |LGS13]. SmartSynth setzt dabei stark auf die Interaktion mit dem Nutzer. So 
werden zum Beispiel Parameter, die für den Aufruf einer API-Funktion benötigt werden und nicht 


inferiert werden konnten, über einen Dialog erfragt. In einer Nutzerstudie mit elf Studenten, die 
mithilfe von SmartSynth 50 unterschiedliche Skripte erstellen sollten, konnten die Autoren zeigen, 
dass ihr System wie erhofft funktioniert: die Erfolgsquote betrug (gegebenenfalls nach Rückfragen 
an die Probanden) 90%. Allerdings kann SmartSynth nur sehr kurze Skripte, bestehend aus ein oder 
zwei (zusammengesetzten) Befehlen erzeugen, gegebenenfalls unter Hinzunahme einer Bedingung. 
Der verfolgte Ansatz ist zudem regelbasiert und in einen Großteil der Regeln fließt Domänenwissen 
ein. Dadurch kann SmartSynth nur für die Erzeugung von Smartphone-Skripten eingesetzt werden 
und die Frage nach der Übertragbarkeit des Ansatzes bleibt offen. 


Desai et al. verwenden maschinelles Lernen, um anhand syntaktischer Eigenschaften eine Ab- 
bildung von englischen Beschreibungstexten auf Skripte in verschiedenen domänenspezifischen 
(Programmier-)Sprachen (engl. domain-specific language, kurz DSL) herzustellen [Des+16]. Der 
Ansatz erlaubt zwar grundsätzlich die Abbildung von natürlicher Sprache auf beliebige DSLs; 


allerdings muss für jede domänenspezifischen Sprache eine entsprechende Datenmenge an Beispie- 
labbildungen geliefert werden. Dementsprechend kann der Ansatz auch nur in Domänen evaluiert 
werden, für die ein ausreichend großer Datensatz zur Verfügung steht. Die Autoren verwenden 
zur Evaluation das AT/S-Korpus, das eine Sammlung von Anfragen an ein Fluginformations- 
und -buchungssystem inklusive erwarteter Systemaktionen enthält [Dah+94]. Außerdem nutzen 
sie Lehrbuchbeschreibungen (einfacher) endlicher Automaten und Beschreibungen zur Erstellung 
von Makros zur Textverarbeitung (aus Büchern und Foreneinträgen). Der Ansatz erreicht in allen 
Domänen eine Genauigkeit von über 80%, für den ATIS-Datensatz sogar 88%. Allerdings sind die 


zu erzeugenden Programme sehr kurz; die allermeisten bestehen nur aus einem einzelnen Aufruf. 
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Landhäußer et al. versuchen mit ihrem System NLCI, die semantische Analyse der Sprache und 
die Abbildung auf das Zielsystem weitestgehend zu entkoppeln [LWT17a} LWT17b]. Hierzu 
entwickeln sie eine generische Darstellung für Zielsysteme in Form einer Ontologie. Dadurch 


wird NLCI zwar nicht völlig unabhängig vom Zielsystem — die passende Zielsystemontologie 
muss immer noch gewählt werden — der Wechsel zwischen unterschiedlichen Zielsystemen wird 
allerdings vereinfacht. Außerdem ermöglicht NLCI prinzipiell die Erzeugung von beliebig langen 
Skripten anhand von Prosatexten, wobei alle Anweisungen API-Aufrufe von Zielsystemfunktionen 
darstellen; auch die Synthese von Kontrollstrukturen (bedingte Verzweigungen, Schleifen und 
Nebenläufigkeit) wird unterstützt. Die semantische Interpretation einer natürlichsprachlichen 


Beschreibung erfolgt ausschließlich regelbasiert auf Basis von Abhängigkeitsgraphen (siehe Ab- 


schnitt 2.3.4.6), die mithilfe der Werkzeugsammlung Stanford CoreNLPS erzeugt werden. Zur 


Abbildung auf die Zielsystemfunktion wird je Handlungsanweisung eine unscharfe Suche (in 
der Ontologie) durchgeführt; die gefundenen Abbildungskandidaten werden mithilfe eines eigens 
entwickelten Bewertungssystems sortiert und die beste Abbildung in das Programm eingefügt. Dieses 
Vorgehen kann in beliebigen Domänen ohne Anpassung verwendet werden, sofern eine Ontologie- 


Darstellung des Zielsystems existiert. NLCI wurde in zwei Domänen anhand von Beschreibungstexten 
6 


evaluiert, die von Probanden angefertigt wurden: Die erste ist die Programmierlehrplattform Alice 


in der programmatisch Animationen in einer 3D-Welt erstellt werden können; die zweite ist 
openHAB"| ein Heimautomationssystem. Für Alice-Beschreibungstexte erzielt NLCI eine Ausbeute 
von 0,670 bei einer Präzision von 0,741 (bei Betrachtung einzelner API-Aufrufe); für openHAB 
sind es 0,700 bzw. 0,737. NLCI lässt sich zwar in beliebigen Domänen einsetzen; ein Einsatz für 
gesprochene Sprache (wie durch Pro, angestrebt) erscheint jedoch aufgrund der Abhängigkeit 
(der semantischen Interpretation) von tiefgehenden syntaktischen Analysen, wie der Erzeugung von 
Abhängigkeitsgraphen, nicht möglich. Außerdem birgt die semantische Interpretation (aufgrund des 
regelbasierten Vorgehens) prinzipiell Verbesserungspotenzial, wie auch die Evaluationsergebnisse 
nachweisen. 


Einen ebenfalls Ontologie-basierten Ansatz verfolgen Atzeni und Atzori [AA 18]. Ihre ontologische 


Darstellung fokussiert sich allerdings stärker auf die Struktur von Programmiersprachen. Da ihre 
Ontologie öffentlich zugänglich ist, kann Sie von anderen Wissenschaftlern erweitert und für eigene 
Ansätze zur semantischen Analyse der natürlichen Sprache verwendet werden. Die semantische 
Interpretation einer natürlichsprachlichen Beschreibung erfolgt (ähnlich wie bei NLCT) auf Grundlage 
von Abhängigkeitsgraphen (die ebenfalls mithilfe von Stanford CoreNLP erzeugt werden). Für die 
Abbildung auf in der Ontologie hinterlegte API-Funktionen verwenden Atzeni und Atzori ebenfalls 
einen Suchmechanismus; die Bewertung der Kandidaten erfolgt allerdings anhand eines Ensembles 
von Bewertungsmetriken, vorrangig solcher zur Bestimmung von Zeichenkettenähnlichkeiten: Unter 
anderem werden die Levenshtein-Ähnlichkeit (siehe|Abschnitt 2.3.13.1) und Kosinus-Ähnlichkeit 
der Wortvektoren (siehe Abschnitt 2.3.16) der Such- und Ergebniszeichenkette verwendet. Evaluiert 
wurde der Ansatz anhand von zwei Datensätzen: Zum einen anhand einer Sammlung von Fragen 


aus einem Forum, welche auf den Aufruf einer API-Funktion abzielen und zum anderen anhand 


Stanford CoreNLP: https://stanfordnlp.github.io/CoreNLP/, zuletzt besucht am 24.02.2021. 


Alice: https: //www.alice.org/, zuletzt besucht am 24.02.2021. 
openHAB: https: //www.openhab. org/! zuletzt besucht am 24.02.2021. 
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einer Menge von natürlichsprachlichen Anfragen an ein (imaginäres) virtuelles Assistenzsystem. 
In beiden Domänen erzielt der Ansatz eine Präzision von 90% bei der Generierung der Aufrufe. 
Allerdings besteht ein Großteil der erzeugten Skripte aus genau einem Aufruf, nur wenige beinhalten 
zwei bis vier und mehr als vier Aufrufe sind zur Lösung der Aufgaben nie nötig. Ob der Ansatz 
auch zur Erzeugung von längeren Skripten verwendet werden kann, bleibt unklar; außerdem bleiben 
Kontrollstrukturen gänzlich unbeachtet. 


3.3.2 Semantisches Zerteilen 


Seit Beginn der 2000er Jahre hat sich das sogenannte semantische Zerteilen (engl. semantic parsing) 
etabliert. Beim semantischen Zerteilen werden Sätze — ähnlich dem üblichen (syntaktischen) 
Zerteilen - in Teilstrukturen zerlegt. Einzelne Satzabschnitte erhalten so eine eindeutige semantische 
Funktion. In den meisten Fällen werden semantische Zerteilungen mithilfe von kombinatorischen 


Kategorialgrammatiken (engl. Combinatory Categorial Grammar, kurz CCG) |Ste87] erzeugt bzw. 


dargestellt. Wie Grammatik-basierte Ansätze im Allgemeinen eignen sie sich allerdings nur für 
die Beschreibung von Beziehungen über kurze Distanzen. Das semantische Zerteilen wird neben 
anderen Anwendungen aus dem Bereich des Verständnisses der natürlichen Sprache vor allem für 
die Endnutzer-Programmierung mit (zumeist geschriebener) Sprache eingesetzt. Beispielsweise 
verwenden Vadas und Curran CCGs als Grundlage für einen regelbasierten Ansatz zur Erzeugung von 


Python-Skripten anhand englischsprachiger Prosatexte [VCO5]: Sie Verwenden einen spezialisierten 


Zerteiler (engl. parser), der CCG-Ableitungen erzeugt. Ausgehend von der semantischen Zerteilung 
einer (laut der Autoren) uneingeschränkten natürlichsprachlichen Eingabe wird mithilfe von händisch 
erzeugten Regeln die Beschreibung als Programm inklusive einfacher Kontrollstrukturen interpretiert. 
Die Publikation enthält einige Beispiele, die Systemeingaben und -ausgaben illustrieren, aber keine 
Evaluation; daher ist es nicht möglich einzuschätzen, ob der Ansatz tatsächlich uneingeschränkte, 
freie Formulierungen als Programm interpretieren kann. Es ist aber eher unwahrscheinlich, dass 
das Verfahren uneingeschränkte Sprache versteht, da regelbasierte Verfahren im Allgemeinen kein 


breites Sprachverständnis besitzen (siehe|Abschnitt 2.3.11); das bedeutet, das Vokabular, welches 


analysiert werden kann, ist geringer als bei statistik- oder wissensbasierten Verfahren?] 


Das von Zettlemoyer et al. entwickelte allgemeingültige Verfahren für die semantische Zerteilung 
mit CCGs liefert vielen weiterführenden Ansätzen Zugang zu CCG-Zerteilungen als Analyse- 


grundlage [ZC05; [ZC07]. Weitere Vorarbeiten zur semantischen Analyse natürlichsprachlicher 
Beschreibungen, zum Beispiel zur Analyse von zeitlichen Abläufen durch Lee et al. [Lee+14], einer 
Untersuchung zur Abdeckung der semantischen Strukturen durch Artzi et al. |ALZ15] und zur 


verbesserten Extraktion dieser Strukturen aus natürlicher Sprache durch Misra und Artzi [MA16], 


ermöglichten die Entwicklung verschiedener Ansätze zur Anwendung des semantischen Zerteilens 
mit und ohne CCGs. Konstas et al. nutzen ein sogenanntes Sequenz-zu-Sequenz-Modell (engl. 
sequence-to-sequence model) um eine abstrakte Bedeutungsrepräsentation (engl. abstract meaning 


8 Oder anders gesagt: Üblicherweise ist die Ausbeute gegenüber statistik- oder wissensbasierten Verfahren geringer 


(siehe |Abschnitt 2.3.2). 
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representation, kurz AMR) für natürlichsprachliche Eingaben zu erzeugen ||Kon+17]. Diese Reprä- 


sentation beschreibt die semantischen Zusammenhänge zwischen genannten Entitäten, Aktionen, 
Ereignissen und Zuständen und kann als Erweiterung von semantischen Rollen angesehen werden. 
Ein ähnliches Ziel verfolgen Liu et al. indem sie eine Bedeutungsrepräsentation für einen vollständi- 
gen Diskurs, ebenfalls mit einem Sequenz-zu-Sequenz-Modell, erzeugen [LCL18]. Ihr Ansatz basiert 
auf CCGs zur Darstellung der Diskurssemantik, welche mithilfe eines bidirektionalen LSTMs erzeugt 


wird (siehe Abschnitt 2.2.2). Der Ansatz von Srivastava et al. lernt automatisch abstrakte Konzepte 


anhand kleiner Datensätze |SLM17]. Die Autoren verwenden hierfür ebenfalls maschinelles Lernen; 


sie experimentieren mit logistischer Regression und Naive-Bayes als Klassifikationsmodelle. 


Ein erster Ansatz, der semantische Zerteilung konkret zur Erzeugung von Programm-artigen Skripten 


aus natürlichsprachlichen Texteingaben verwendet] wird von Long et al. präsentiert ||LPL16]. Die 


Aufgabenstellung wird unter der Prämisse betrachtet, dass lediglich indirekte Überwachung (engl. 
indirekt supervision) zur Modellerzeugung möglich ist; das bedeutet, es kann nur die Ausgabe des 
erzeugten Programms untersucht werden, die einzelnen Quelltextbestandteile (das heißt Anweisun- 
gen) bleiben verborgen. Die Autoren verwenden zur Lösung des Problems drei unterschiedliche 
Modellarten: Das erste Modell verwendet alle möglichen CCG-Zerteilungen als Eingabe; die 
anderen beiden führen die Zerteilungen systematisch zusammen. Alle Zerteilungen werden letztlich 
mithilfe eines Beam-Search-Verfahrens auf (Programm-)Anweisungen abgebildet. Zur Evaluation 
erstellen sie über eine Schwarmauslagerungsplattform drei Datensätze, die ähnlich geartet sind. 
Drei unterschiedliche (imaginäre) Systeme sollen von einem Zustand in einen anderen (bekannten) 
Zustand überführt werden. Probanden sollen die nötigen Anweisungen bzw. Aktionen (die in einer 
logischen Repräsentation, das heißt als mehrstellige Prädikate mit bekannten Prädikatbezeichnern 
und Argumenten) erteilen, wobei sie bis zu fünf Aktionen verwenden dürfen. Zusätzlich werden 
natürlichsprachliche Beschreibungen für die Überführungen gesammelt. Anhand dieser Paare können 
die unterschiedlichen Modelle erzeugt werden. Die Autoren zeigen in der Evaluation, dass Skripte, 
die bis zu drei Aktionen benötigen, mit einer Genauigkeit von 23% bis 65% (je nach verwendeten 
Modell und Datensatz) erzeugt werden; bei Skripten, die bis zu fünf Aktionen enthalten, sinken die 
Werte auf 15% bis 52%. Guu et al. kombinieren verstärkendes Lernen (engl. reinforcement learning) 
sowie die Maximal-Marginal-Likelihood-Methode zur Lösung derselben Aufgabe auf Basis der 


drei von Long et al. erstellten Datensätze |Guu+17]. Ihr System passt das Modell je Eingabe so 


lange an, bis der erwartete Zustand erreicht ist. Auf diese Weise gelingt es ihnen die Genauigkeit 
auf 67% (Skripte mit drei Aktionen) bzw. 37% (fünf Aktionen) zu steigern. Auch Suhr und Artzi 
präsentieren eine Lösung für die von Long et al. definierte Problemstellung [SA18]. Sie verwenden 


ein neuronales Netz, welches den situativen Kontext (das heißt den aktuellen Systemzustand) mit in 
den Übersetzungsprozess einbezieht. In diesem Fall schließt der situative Kontext den sprachlichen 
Diskurs zwischen System und Nutzer sowie Wissen über die Systemumgebung bzw. den aktuellen 
Zustand des Systems ein. Auf diese Weise gelingt es den Autoren, die Genauigkeit bei der Erzeugung 
der Skripte weiter zu steigern: bis zu 83% für Skripte bestehend aus drei Aktionen und 72% bei 


Tatsächlich wird das Ziel verfolgt, natürlichsprachliche Äußerungen in Textform in eine logische Repräsentation 
zu überführen, die Quelltext ähnelt. Die betrachteten Zielsysteme sind allerdings synthetisch und es wird kein 
tatsächlich ausführbarer Quelltext erzeugt. Die logische Repräsentation ist aber so entworfen, dass sie glaubhaft 
einer Anwendungsschnittstelle ähnelt. 
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fünf Aktionen. Das grundsätzliche Problem mit der von Long et al. definierten Aufgabe ist, dass es 
sich lediglich um imaginäre Systeme handelt. Das bedeutet, es wird kein echter Quelltext erzeugt, 
sondern nur Anweisungen in Prädikatschreibweise, die ähnlich wie programmatische Anweisungen 
geformt sind. Außerdem ist der Funktionsumfang der betrachteten Systeme sehr gering. Aus diesen 
Gründen lässt sich schwer abschätzen, inwieweit die drei diskutierten Ansätze auf andere Domänen 
und echte Anwendungsschnittstellen übertragbar sind, auch wenn alle konzeptionell übertragbar 
erscheinen. Zudem verwenden alle maschinell erlernte Modelle, die in jedem Fall zur Verwendung 
in anderen Domänen neu trainiert werden müssten. Einzig der ursprüngliche Ansatz von Long et al. 
erscheint besser übertragbar, da als Analysegrundlage CCG-Zerteilungen verwendet werden] 


Quirk et al. widmen sich der Erzeugung von kurzen bedingten Programmen aus textuellen Beschrei- 
bungen [QMGI15]. Das bedeutet, es sollen bestimmte Aktionen (API-Aufrufe) ausgeführt werden, 
sobald ein äußerer Impuls (engl. trigger) ausgelöst wird. Aus programmatischer Sicht kann diese 


Anforderung mithilfe von Wenn-Dann-Strukturen (engl. if-then expression), also durch bedingte Ver- 
zweigungen, umgesetzt werden. Als Basis für ihren Ansatz verwenden die Autoren einen Datensatz, 


den sie automatisch über den Webservice ZF TTT" | zusammentragen: IFTTT ist eine Sammlung 
sogenannter [f-This-Then-That Recipes (deutsch: Wenn-Dies-Dann-Das-Rezepte), das heißt kurzer 
Programme (z. B. fiir Heimautomation), die ausgelöst werden, wenn eine definierte Bedingung 
zutrifft. Für jedes Programm gibt der Ersteller zudem eine kurze natürlichsprachliche Beschreibung 
an. Die Beschreibungen (als Eingabebeispiele) und das jeweils zugehörige bedingte Programm (als 
Ausgabe) bilden den Datensatz" | Quirk et al. vergleichen auf Grundlage des /FTTT-Datensatzes in 
ihrer Publikation verschiedene Ansätze (vor allem maschinell erlernte Klassifikatoren). Die besten 


Ergebnisse erzielt ein Klassifikator, der logistische Regression verwendet (siehe| Abschnitt 2.2. 1.1); 


dieser erzielt eine Genauigkeit von 35% für die Erzeugung vollständiger IFTTT Recipes. In einer 
Erweiterung des Ansatzes durch Beltagy und Quirk wird zusätzlich ein vorwärts gerichtetes neuro- 
nales Netz (siehe|Abschnitt 2.2.2) trainiert und außerdem die Klassifikation des Netzes mit der des 
Klassifikators basierend auf logistischer Regression verknüpft (als Klassifikator-Ensemble); letzteres 
steigt die Genauigkeit auf 43%. Mit der Betrachtung von bedingten Programmen liefern Quirk et al. 
eine interessante Problemstellung, da Kontrollstrukturen ansonsten in der Literatur wenig Beachtung 
finden. Allerdings sind die natürlichsprachlichen Beschreibungen des /FTTT-Datensatzes nicht 
allgemeingültig: Sie sind sehr kurz und die Bedingung wird fast immer zu Beginn formuliert, was die 
Erkennung deutlich vereinfacht. Außerdem enthalten die Dann-Blöcke der Programme nur wenige 
Anweisungen, meist sogar nur eine. Ob der Ansatz auf umfangreichere Blöcke übertragbar ist, kann 
nicht prognostiziert werden. Nicht betrachtet werden zudem Andernfalls-Blöcke (engl. else). Auch 
die Möglichkeit, dass Wenn-Dann-Andernfalls-Strukturen Teil eines längeren Skriptes sein könnten 
(und die Bedingung eben nicht zu Beginn formuliert wird) ist nicht Teil der Betrachtung. 


Dies hat den Vorteil, dass Modelle Klassifikationsentscheidungen gegebenenfalls anhand abstrakter (Zerteilungs-) 
Strukturen treffen statt anhand konkreter (Schlüssel-)Wörter oder Phrasen. 

1l IFTTT: https: //ifttt.com/, zuletzt besucht am 24.02.2021. 

Seit September 2020 ist die Nutzung von /FTTT kostenpflichtig. Ein derartiger Datensatz kann dementsprechend nicht 
mehr ohne weiteres nachgebildet werden. Der Original-Datensatz von 2015 ist jedoch weiterhin verfügbar: https: // 
github.com/Jungyhuk/Latent-Attention/blob/master/dataset/IFTTT/nsr_data.pkl. zuletzt besucht 
am 24.02.2021. 
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Mithilfe rekurrenter neuronaler Netze erzeugen Chen et al. ein Sequenz-zu-Sequenz-Modell, welches 


aus englischsprachigen Texten ausführbare Aktionen synthetisiert [CSH18]. Die Netze lernen 


implizit sogenannte Aktionseinbettungen, ähnlich den bekannten Worteinbettungen (siehe 
schnitt 2.3.16). Die Autoren evaluieren ihren Ansatz anhand von drei Datensätzen, dem (bereits im 
vorangegangen Abschnitt erwähnten) ATIS-Datensatz, GeoQuery, einem Datensatz bestehend aus 


Datenbankabfragen und zugehörigen natürlichsprachlichen Anfragen? [ZM96], sowie ebensolchen 


Anfragepaaren an ein synthetisches virtuelles Assistenzsystem. Das bedeutet, alle Programme 
bestehen lediglich aus einzelnen Aufrufen!#] Der Ansatz erzielt sehr gute Genauigkeiten: 86% für 
ATIS, 89% für GeoQuery und 79% für das virtuelle Assistenzsystem. Allerdings muss für jede 
Domäne das Klassifikationsmodell von Grund auf neu trainiert werden; der Ansatz ist also nur auf 
Domänen übertragbar, für die ein ausreichend großer Datensatz zur Verfügung steht. 


Ling et al. widmen sich der Objektorientierung und bilden mit ihrem Ansatz textuelle Beschreibungen 


auf Klassenimplementierung ab. Hierzu verwenden sie eine angepasste Variante eines bidirektionalen 


LSTMs (siehe |Abschnitt 2.2.2). Interessant ist vor allem der Datensatz, den die Autoren zur 


Evaluation ihres Ansatzes verwenden: Sie erzeugen einen Korpus mithilfe virtueller Kartenspiele 
(das heißt Computerspielvarianten von Strategie-Sammelkartenspielen). Jede Spielkarte besitzt eine 
Beschreibung (ihrer Fähigkeiten) sowie eine zugehörige Implementierung (bestehend aus einer Klasse 
mit Attributen und öffentlichen Methoden). Die Implementierungen der Klassen unterscheiden sich 
deutlich, da jede Karte in den jeweiligen Spielen unterschiedliche Fähigkeiten besitzt. Ling et al. 
erzeugen zwei Datensätze, indem sie automatisch die Beschreibungen und Implementierungen der 
Karten der beiden Spiele Hearthstone" (HS-Datensatz) und Magic the Gathering" (MtG-Datensatz) 
sammeln; die Karten von ersterem sind in Python und von zweiterem in Java implementiert. Zwar 


erreichen Ling et al. mit ihrem Ansatz nur Genauigkeiten von 5% (MrG-Datensatz) bzw. 6% 
(HS-Datensatz); für die BLEU-Metrik (siehe Abschnitt 2.4.7) werden aber immerhin Werte von 
61% bzw. 66% erzielt. Auch wenn die Ergebnisse deutliches Verbesserungspotenzial aufweisen, 


präsentieren Ling et al. eine interessante und herausfordernde Problemstellung; insbesondere die 
nicht offensichtliche Abbildung einer eher abstrakten textuellen Beschreibung auf eine feingranulare 
Implementierung stellt eine interessante Aufgabe dar. Leider diskutieren die Autoren nicht, ob ihr 


Ansatz auf die Implementierung andersartiger bzw. komplexerer Klassen übertragbar ist. 


Yin und Neubig verwenden rekurrente neuronale Netze, um aus textuellen Beschreibungen abstrakte 


Syntaxbäume (engl. abstract syntax tree, kurz AST) zu erzeugen |YN17]. Ausgehend von den 


erzeugten ASTs kann deterministisch Quelltext erzeugt werden. Die Autoren evaluieren ihren Ansatz 
anhand drei sehr unterschiedlicher (und anspruchsvoller) Domänen. Zum einen verwenden sie 
den HS- und den /FTTT-Datensatz (bzw. einen Teil des letzteren). Zum anderen nutzen sie den 
sogenannten DJANGO-Datensatz |Oda+15]; dieser enthält Tupel, bestehend aus Python-Quelltext 


3 Eine ausführlichere Beschreibung des GeoQuery-Datensatzes befindet sich in|Abschnitt 3.4] Dort wird die Arbeit 
von Zelle und Mooney thematisiert, die den Datensatz eingeführt hat. 

Der Ansatz hätte dementsprechend auch dem Forschungsgebiet Erzeugung von Datenbankabfragen aus natürlich- 
sprachlichen Äußerungen (siehe| Abschnitt 3.4) zugeordnet werden können. Die Einordnung an dieser Stelle erfolgte 
aufgrund der Wahl des virtuellen Assistenzsystem als weitere Domäne und der angewandten Techniken. 

Virtuelles Online-Kartenspiel Hearthstone: https: //playhearthstone.com, zuletzt besucht am 24.02.2021. 
Virtuelles Online-Kartenspiel Magic the Gathering: https: //magic.wizards. com, zuletzt besucht am 24.02.2021. 
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und zugehörigen natürlichsprachlichen (Pseudo-)Quelltext-Beschreibungen aus einer vorherigen 
Arbeit von Neubig. Für den HS-Datensatz geben die Autoren eine Genauigkeit von 16% an, was einer 
Verbesserung um immerhin 10 Prozentpunkte gegenüber der Arbeit von Ling et al. entspricht. Auf 
dem DJANGO-Datensatz wird eine Genauigkeit von 72% erreicht. Für IFTTT wird sogar ein Wert 
von 90% erzielt; allerdings wurde nur ein kleiner Ausschnitt des JFTTT-Datensatzes verwendet, 
der nur 758 ausgewählte natürlichsprachliche Beschreibungen und zugehörige Implementierungen 
enthält, die in einer Nutzerstudie von einer Mehrheit von menschlichen Bewertern (mindestens 


drei von fünf) als sehr gut bewertet wurden. E] Der Original-Ansatz von Quirk und Beltagy erzielt 
für diesen Teil des Datensatzes auch eine deutliche höhere Genauigkeit (als zuvor berichtet) von 
83%. Ein wesentlicher Nachteil des Ansatzes von Yin und Neubig ist, dass dieser die ASTs in 
Abhängigkeit von der Zielprogrammiersprache erlernt; das bedeutet, für jede Programmiersprache 
muss ein eigenes Netz trainiert werden. Das Verfahren könnte aber auf andere Domänen übertragbar 
sein, solange die Programmiersprache gleich und die Aufgabe sehr ähnlich ist, nachgewiesen wurde 
dies in der Publikation jedoch nicht! 


Der Ansatz von Rabinovich et al. erzeugt ebenfalls ASTs mithilfe eines bidirektionalen LSTMs aus 


textuellen Beschreibungen [RSK17]. Allerdings lassen sich die erzeugten ASTs laut der Autoren 


prinzipiell auf beliebige Programmiersprachen abbilden; präsentiert wird in der Evaluation jedoch 
lediglich eine Abbildung auf Python (HS-Datensatz) sowie die domänenspezifische Sprachen der 
ATIS- und GeoQuery-Datensätze. Für die beiden letzten erzielt der Ansatz sehr gute Genauigkeiten 
von 86% (ATIS) bzw. 87% (GeoQuery); allerdings müssen in diesen Domänen nur einzelne Aufrufe 
erzeugt werden. In der deutlich anspruchsvollen Domäne des HS-Datensatzes gelingt Rabinovich et 
al. aber ebenfalls eine deutliche Verbesserung der Genauigkeit (gegenüber Ling et al. sowie Yin und 
Neubig) auf über 22%. Die Besonderheit an dem eingesetzten LSTM ist der modulare Aufbau des 
Dekodierers. Je nach zu erzeugendem AST-Bestandteil (Aufruf, Bedingung, Schleife usw.) wird ein 
anderes speziell trainiertes Dekodierer-Modul verwendet. 


Dong und Lapata implementieren einen zweistufigen Ansatz für semantische Zerteilung [|DL18]. 


Im ersten Schritt wird nur eine leichtgewichtige Bedeutungsrepräsentation der natürlichsprachlichen 
Eingabe erzeugt. Die Repräsentation dient zusammen mit der eigentlichen Äußerung als Eingabe 
für ein bidirektionales LSTM. Der Ansatz kann für unterschiedliche Programmiersprachen und 
Zielsysteme verwendet werden; das LSTM-Modell (zweiter Teil des Ansatzes) muss jedoch für jedes 
anzusprechende Zielsystem neu trainiert werden. Dong und Lapata evaluieren ihren Ansatz anhand 
der Datensätze ATIS, GeoQuery und DJANGO; zusätzlich verwenden sie als weiteren Datensatz 
WikiSOL [ZXS17], eine Sammlung von SOL-Abfragen von Wikipedid"| Diese Datensätze enthalten 
ausschließlich kurze textuelle Beschreibungen, die jeweils auf einen einzelnen Aufruf abgebildet 


werden müssen. Der Ansatz erzielt durchweg gute Genauigkeiten: circa 88% für GeoQuery und 
ATIS sowie 74% für DJANGO und 72% für WikiSOL. 


Möglicherweise handelt es sich bei diesen Datenpunkten um besonders einfache bzw. offensichtliche Tupel (bestehend 
aus Beschreibung und Implementierung). 

Die in der Evaluation betrachteten Datensätze verwenden unterschiedliche Programmiersprachen bzw. domänenspe- 
zifische Sprachen. Dementsprechend wurden die verwendeten Modelle von Grund auf trainiert. 

'9 Der Datensatz entstammt der Arbeit von Zhong et al., die im nachfolgenden [Abschnitt 3.4|diskutiert wird. 
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Das Werkzeug NL2Bash, entwickelt von Lin et al., ist auf ein Zielsystem und eine Programmiersprache 


festgelegt [Lin+18]; NL2Bash generiert aus natürlichsprachlichen Anweisungen Bash-Kommandos 


für das Betriebssystem Linux. Die Autoren vergleichen für diese Abbildung verschiedene neuronale 
Netze, vor allem rekurrente Netz-Architekturen. Zusätzlich implementieren sie einen hybriden 
Ansatz, bestehend aus einem maschinell erlernten Modell, dessen Klassifikation nachträglich mithilfe 
von Heuristiken angepasst wird. Den Datensatz für das Training und den Test der Klassifikatoren 
erstellen Lin et al. wie folgt: Sie lassen zehn professionelle Entwickler Bash-Kommandos (Ausgabe) 
sowie zugehörige Beschreibungen (Eingabe) erstellen und sammeln auf diese Weise 9305 Ein- 
Ausgabe-Tupel. Die meisten Beschreibungen bestehen aus einzelnen Sätzen und auch die Kommandos 
sind größtenteils Einzelkommandos; teils werden aber auch zwei oder mehr verknüpft. In der 
Evaluation zeigen Lin et al., dass sich eine der rekurrenten Netzkonfigurationen am besten für 
diese Problemstellung eignet: Der Klassifikator erzielt eine Genauigkeit auf der Testmenge von 
36%. Dieses Ergebnis zeigt, dass noch deutliches Verbesserungspotential besteht. Abgesehen 
davon präsentieren Lin et al. mit der Erzeugung von Bash-Kommandos aus natürlichsprachlichen 
Beschreibungen eine interessante Problemstellung. Inwieweit etwaige Lösungen auf andere Aufgaben 
bzw. Domänen übertragbar sind, bleibt jedoch offen. Der von Lin et al. vorgestellte Ansatz ist 
auf alle Fälle nicht ohne Weiteres wiederverwendbar: Das gelernte Modell überführt Text direkt 
in Bash-Kommandos, was bedeutet, dass alleine zur Anbindung neuer Befehle ein neues Modell 
trainiert werden müsste. 


3.3.3 Ansätze aus der Robotik-Domäne 


Besondere Relevanz besitzt die Programmierung mit natürlicher Sprache im Kontext der humanoiden 
Robotik. Um humanoide Roboter zukünftig im Alltag einsetzen zu können, muss eine für den Nutzer 
möglichst natürliche Interaktion zwischen Mensch und Maschine gewährleistet werden. Das mensch- 
liche Erscheinungsbild dieser Roboter weckt im menschlichen Gegenüber die Erwartung, dass mit 
dem Roboter wie mit einem Menschen kommuniziert werden kann. Dies schließt unter anderem die 
Verwendung natürlicher Sprache zur Erteilung von Anweisungen und Erklären von Arbeitsabläufen 
ein. Es ist daher nicht verwunderlich, dass sich eine Vielzahl von Ansätzen zur Programmierung 
mit natürlicher Sprache auf diese Domäne fokussiert. Ausgehend von einer Voruntersuchung zur 


Analyse von Richtungsangaben in natürlichsprachlichen Instruktionen [Kol+10] präsentieren Tellex 


et al. einen Ansatz zur Roboter-Navigation mit natürlicher Sprache [Tel+11]. Ihr Ansatz lernt 


Ausführungspläne aus einer Sammlung natürlichsprachlicher Instruktionen. Die Datenbasis für ihr 
Modell wurde über eine Schwarmauslagerungsplattform gesammelt. Als Eingabe akzeptiert der 
Ansatz nur stark eingeschränkte Formulierungen: Es sind ausschließlich Handlungsanweisungen im 
Imperativ zulässig; diese dürfen maximal zwei Aktionen umfassen (die über die Konjunktion and 
verknüpft sind). Die Autoren evaluieren ihren Ansatz anhand des gesammelten Datensatzes: Das 
gelernte Modell erzielt eine Genauigkeit auf der Testmenge (siehe von 90%. Da das 
Modell direkt anhand von Tupeln, bestehend aus natürlichsprachlichen Handlungsanweisung (als 
Eingabe) und der jeweils zugehörigen erwarteten Instruktionsfolge (als Ausgabe), trainiert wird, ist 
die Übertragbarkeit des Ansatzes auf ein anderes Robotersystem oder eine gänzlich andere Domäne 
fraglich; zumindest müsste das Modell erneut trainiert werden. 
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Nyga und Beetz beschreiben, welche Art von Wissensbasis nötig ist, damit Haushaltsroboter natür- 


lichsprachliche Instruktionen verstehen können und wie diese bereitgestellt werden könnte [NB12]. 


Ihr Wissensmodell, genannt PRAC, entsteht durch die Zusammenführung von Informationen aus 


unterschiedlichen Wissensquellen: Unter anderem werden die WordNet-Taxonomie (siehe |Ab+ 


schnitt 2.3.15.1), FrameNet-Rahmen (siehe Abschnitt 2.3.15.2) und WikiHow-Beschreibungen| 


für die Abhängigkeitsgraphen mithilfe des Stanford’schen Zerteilers erzeugt werden, verwendet. 
Die (automatisch) zusammengeführten Informationen werden als Markov-Modell repräsentiert. Die 
Publikation enthält keine Evaluation; stattdessen diskutieren Nyga und Beetz Verwendungsmöglich- 


keiten für ihr Wissensmodell anhand von Beispielen. 


Statt einer Wissensbasis verwenden Lincoln und Verres ein zielorientiertes Planungsmodell, in 
welches neben textuellen Beschreibungstexten auch eine Systemumgebungs- und Zustandsreprä- 
sentation einfließt [LV12]. Die Autoren erzeugen ein geteiltes Planungsmodell für die beiden 


Kooperationspartner Mensch und Maschine, welches die gemeinsamen Ziele beziehungsweise 
Absichten repräsentiert. Allerdings wirkt die von den Autoren verwendete Sprache sehr technisch, 
was auf die angestrebt maschinennahe Programmierung der Roboter zurückgeführt werden kann. 
Die Publikation zeigt exemplarisch, wie der Ansatz zur Programmierung zweier unterschiedlicher 
Robotersysteme eingesetzt wurde; eine quantitative Untersuchung wurde jedoch nicht durchgeführt. 


Der Ansatz von Mutuszek et al. lernt ein Modell, das die Semantik natürlichsprachlicher Hand- 


lungsanweisungen analysieren und in ausführbare Instruktionen an ein Robotersystem überführen 


kann [Mat+13]. Als Grundlage für ihren Ansatz verwenden die Autoren CCGs zur Erfassung der 


Semantik der natürlichsprachlichen Beschreibungen. Die CCG-Zerteilungen dienen wiederum als 
Eingabe für ein Modell, das die Zerteilungen in kurze Skripte bestehend aus Aufrufen an ein 
Roboter-Kontrollsystem überführt. In einer Evaluation wird ein Modell für die Aufgabe der Wegfin- 
dung trainiert: Anhand von natürlichsprachlichen Wegbeschreibungen sollen Navigationsbefehle 
für das Roboter-Kontrollsystem erzeugt werden; dies gelingt bei kurzen Beschreibungstexten in 
66% der Fälle; bei längeren Beschreibungen sind hingegen nur 49% der generierten Befehle korrekt. 
Leider kann anhand der Publikation nicht eingeschätzt werden, wie generisch der von Mutuszek et 
al. verfolgte Ansatz ist. In jedem Fall muss ein neues Modell trainiert werden, wenn ein anderes 
Zielsystem angesprochen werden soll, höchstwahrscheinlich aber auch, wenn sich die Art der 


Aufgabenstellung (an den Roboter) ändert. 


Ein Ansatz, der nicht nur einzelne Aktionen oder Aktionsfolgen, sondern neue Funktionalität erzeu- 


gen soll, wurde von She et al. entwickelt [She+14]. Neue Funktionen können im Dialog zwischen 


Mensch und Maschine erlernt werden, indem der Nutzer eine Beschreibung in natürlicher Sprache 
abgibt. Die Beschreibungen müssen jedoch einem vordefinierten Schema mit festen Reihenfolgen 
und Formulierungen entsprechen. Der Ansatz übersetzt die Beschreibung mithilfe von semanti- 


schen Rollen (siehe Abschnitt 2.3.4.8) und einer Stichwortsuche in ein Ablaufmodell. Die in der 


Publikation beschriebene Evaluation umfasst das Erlernen von sechs neuen Funktionalitäten. Diese 
werden anschließend in jeweils zwanzig unterschiedlichen Szenarien mittels natürlichsprachlicher 
Anweisungen (nach festem Schema) aufgerufen; der Aufruf gelingt in 88% der Fälle. Da der Ansatz 


20 


WikiHow ist eine Online-Sammlung von Kurzanleitungen für diverse (Alltags-)Probleme: https: //www. wikihow, 
com/, zuletzt besucht am 24.02.2021. 
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im Wesentlichen auf semantischen Rollen und Stichwörtern basiert, sollte er einfach auf andere 
Aufgaben übertragbar sein; die Festlegung auf einen Roboter als Zielsystem erscheint hingegen 
(aufgrund der Gestalt der verwendeten Ableitungsregeln) nicht ohne Weiteres änderbar. 


Thomason et al. nutzen semantisches Zerteilen für ihren Dialog-basierten Ansatz zur natürlich- 
sprachlichen Steuerung von humanoiden Robotern ['Tho+15]. Hierzu lernt ihr Ansatz ein Modell aus 
einer Datenbasis an Instruktionen, die wiederum über eine Schwarmauslagerungsplattform erzeugt 


wurde. Das Modell wird zur Laufzeit sukzessive mithilfe vergangener Dialoge mit verschiedenen 
Nutzern angepasst. In der Evaluation konnten die Autoren zeigen, dass diese sukzessive Verbes- 
serung gelingt. In einer Nutzerstudie gab ein Großteil der Probanden nach der Verwendung des 
Systems über mehrere (Dialog)-Iterationen an, dass der Roboter sie mit der Zeit besser versteht. 
Eine zweite Evaluation konnte diese Ergebnisse bestätigen: Bei der Lösung von unterschiedlichen 
Aufgabenstellungen steigt die Erfolgsquote mit sukzessiven Lernen auf 60%; ohne gelerntes Wissen 
beträgt sie lediglich 20%. 


Misra et al. verfolgen einen anderen Ansatz [Mis+15]: Sie überführen natürlichsprachliche Beschrei- 


bungstexte und Informationen aus einem Systemumgebungsmodell in eine gemeinsame logische 
Repräsentation. Anschließend wird ein Planungsmodell für die auszuführenden Roboteraktionen 
aus der logischen Repräsentation generiert. Hierzu wird ein Modell zur Abbildung von natürli- 
cher Sprache auf Roboteraktionen maschinell erlernt, wobei unklar bleibt, ob und wie gut dieses 
generalisiert. Das erlernt Modell kann jedoch lange Anweisungsfolgen (als Programmskripte) 
generieren. In der Evaluation enthalten die erzeugten Skripte im Durchschnitt 21 Aktionen. Leider 
erfolgt die Bemessung der Qualität anhand eigens definierter Metriken; diese sind zwar für die 
betrachtete Problemstellung aussagekräftig aber nicht vergleichbar. Eine der Metriken ist von der 
Levenshtein-Distanz abgeleitet (siehe|Abschnitt 2.3.13.1): Die sogenannte Instruction Edit Distance 
(kurz IED) betrachtet die Änderungen an einem erzeugten Skript, die notwendig sind um das 


zugehörige Musterlösungsskript zu erhalten. Für diese Metrik erzielt der Ansatz im Mittel einen 
Wert von 22,8. 


Markievic et al. nutzen Aufgabenbeschreibungen, die ursprünglich für menschliche Leser verfasst 
wurden, um Robotersysteme anzulernen [Mar+17]. Sie versuchen so die Problematik der Anpassung 
von Modellen auf neue Aufgabenstellungen zu umgehen. Die Autoren verwenden semantische 
Rollen, um die Semantik der natürlichen Sprache zu erfassen. Allerdings erlaubt ihr Ansatz lediglich 
die Verknüpfung von zwei Handlungsanweisungen in einer Beschreibung. Der Ansatz wurde anhand 
von 87 Beschreibungen (nicht genannten Ursprungs) evaluiert; die Beschreibungen bestehen fast 
ausschließlich aus einzelnen Handlungsanweisungen, die zudem bereits wie Funktionsaufrufe 
formuliert wurden (das bedeutet auch, dass die Benennungen identisch mit den Bezeichnern der 
Systemfunktionen bzw. Parameter waren}"!| Bei der Auswertung der Ergebnisse wurden nicht die 
generierten Aufrufe betrachtet; stattdessen wurde ausschließlich die Präzision bei der Abbildung der 
Einzelbestandteile (das heißt Funktionsname, erster Parameter, zweiter Parameter usw.) bemessen; 
diese Abbildungen erreichen für die Metrik Präzision Werte zwischen 0,828 und 0,977. 


21 


Die Publikation listet einen Großteil der für die Evaluation verwendeten Beschreibungen und erwarteten Aufrufe. 
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3.4 Angrenzende Forschungsgebiete 


3.3.4 Integration anderer Techniken der Endnutzer- 
Programmierung 


Einige Ansätze kombinieren Techniken aus anderen Bereichen der Endnutzer-Programmierung und 
das Programmieren mit natürlicher Sprache. Entweder werden Aktionen demonstriert, zum Beispiel 
durch Gesten beziehungsweise das Zeigen auf Objekte, oder es werden Ein- und Ausgabebeispiele 
für das zu erzeugende Skript angegeben. Letzteres bezeichnet man als Programmierung mithilfe 
von Beispielen (engl. Programming by Example, kurz PbE, siehe |Abschnitt 2.1). 


Ein Vertreter dieser Gattung wurde von Manshadi et al. entwickelt [MGA 13]. Die Autoren trainieren 
ein Modell, welches mögliche Sequenzen von Funktionsaufrufen zu Ein- und Ausgabebeispielen 


generiert und ordnet. Zusätzlich werden lexikalische Informationen aus den textuellen Beschrei- 
bungen verwendet, um die Reihenfolge der Sequenz-Kandidaten neu zu sortieren. Anhand einer 
vergleichenden Evaluation können die Autoren zeigen, dass durch die Integration lexikalischer 
Informationen in einen PbE-Ansatz die Genauigkeit gesteigert werden kann. Dies gilt insbesondere, 
wenn nur wenige Ein-/Ausgabebeispiele für das Training des PDE-Modells zur Verfügung stehen; 
beispielsweise zeigen die Autoren, dass bei Verwendung lexikalischer Informationen die Genauigkeit 
bei der Programmerzeugung von 19% auf 42% gesteigert werden kann, wenn nur ein Beispielpaar 
zur Verfügung steht. 


APPINITE, entwickelt von Li et al. [Li+18], verbindet Programmierung mit natürlicher Sprache 


mit Programmierung durch Demonstration. Ein Nutzer kann entweder eine Folge von Aktionen als 
Makro aufnehmen und diese anschließend mit einem natürlichsprachlichen Aufruf-Namen versehen 
oder aber eine textuelle Beschreibung (einen einzelnen kurzen Satz) abgeben und sich von APPINITE 
eine Sequenz von Aktionen vorschlagen lassen. In beiden Fällen kann der Nutzer das Ergebnis 
im Dialog mit dem System nachträglich anpassen. APPINITE wurde in einer Nutzerstudie mit 
sechs Probanden evaluiert; diese sollten mithilfe von APPINITE zwanzig neue Makros zur Lösung 
unterschiedlichen Aufgaben erstellen. In 87% der Fälle waren die Probanden dabei erfolgreich, 
teilweise erst nach einem Dialog mit dem System. Allerdings wurden hauptsächlich Zeigegesten 
verwendet und alle ermittelten Fehler konnten auf fehlerhafte (bzw. nicht durchführbare) Zerteilungen 
natürlichsprachlicher Beschreibungen zurückgeführt werden. APPINITE verwendet intern einen 
spezialisierten Zerteiler (engl. parser), der die natürliche Sprache in eine logische Zwischensprache 
überführt und dabei interpretiert; diese Überführung scheint jedoch nicht immer möglich. Der 
Zerteiler wurde anhand von Ein-/Ausgabebeispielen trainiert; das bedeutet auch, dass ein neues 
Modell trainiert werden muss, wenn andere Arten von Makros erzeugt oder andere Services 
angesprochen werden sollen. 


3.4 Angrenzende Forschungsgebiete 


Neben den Arbeiten zur Programmierung mit natürlicher Sprache existieren verschiedene Arbeiten 
aus angrenzenden Forschungsgebieten, die gewisse Aspekte mit dem hier vorgestellten Ansatz teilen. 
Arbeiten aus dem Bereich der automatischen Erzeugung von Testfällen aus natürlicher Sprache 
verfolgen eine ähnliche Zielstellung. Auch hier werden ausführbare Skripte aus natürlichsprachlichen 
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Beschreibungen erzeugt, nur handelt es sich hierbei um Test-Skripte und keine eigentlichen 
Programm-Skripte. Andere Ansätze ähneln dem hier vorgestellten in den verwendeten Techniken. 
Arbeiten aus den Bereichen konversationelle Schnittstellen und virtuelle Assistenten analysieren 
ebenfalls natürliche Sprache, überführen sie in eine semantische Zwischenrepräsentation und bilden 
diese anschließend entweder auf eine Abfragesprache wie SQL oder Dienstgeberaufrufe ab. 


3.4.1 Automatisierte Erstellung von Testfällen aus 
natürlichsprachlichen Beschreibungen 


Ansätze aus dem Forschungsgebiet der Erzeugung von Test-Skripten aus natürlichsprachlichen 
Beschreibungen beschränken den Nutzer häufig auf kontrollierte Sprache. Außerdem wird zumeist 
ein Format vorgeben, welches die Eingaben zusätzlich strukturiert. Häufig werden hierzu Formulare 
mit voneinander abhängenden Feldern ausgefüllt. Diese Einschränkungen sind insofern unkritisch, 
als sich diese Ansätze vorwiegend an Software-Entwickler richten. Für diese soll das Testen von 
Software lediglich vereinfacht und strukturiert werden. 


Ein Ansatz dieser Art wurde von Thumalapenta et al. entwickelt [Thu+12} |Thu+13]; dieser 
eignet sich zum Testen von grafischen Benutzeroberflächen. Die Eingabe der Testfälle erfolgt 


textuell und besteht aus fortlaufend nummerierten Kommandos im Imperativ. Die Interpretation 
der natürlichen Sprache erfolgt mithilfe von Schlüsselwörtern und einer oberflächlichen bzw. 
seichten Zerteilung (engl. shallow parsing, siehe auch [Abschnitt 6.2). Zusätzlich verwendet das 
System einen Rücksetzungsmechanismus (engl. backtracking), beispielsweise falls eine (anhand der 


Sprache inferierte) Aktion aufgrund des aktuellen Zustands der grafischen Benutzeroberflächen 
nicht ausführbar ist. Die Autoren zeigen in einer Evaluation, dass gut 82% der für ein Testskript 
benötigten Aktionen korrekt erzeugt werden können. Hierzu wird in vielen Fällen aber der 
Rücksetzungsmechanismus verwendet, der wiederum eine konkrete Systemantwort voraussetzt 
(beispielsweise eine Fehlermeldung bei einer nicht erfolgreichen Anmeldung am getesteten System). 
Das bedeutet, die Lösung ist stark auf die konkrete Problemstellung angepasst; eine Übertragbarkeit 
auf andere Testaufgaben oder auf die Erzeugung von Programmen (statt Tests) scheint nicht ohne 
Weiteres möglich. 


Wang et al. generieren System-Tests und -Modelle aus Anwendungsfall-Spezifikationen [Wan+15]. 


Die Autoren siedeln ihren Ansatz in sicherheitskritischen Domänen an. Aus diesem Grund müssen 
die natürlichsprachlichen Testfälle auch in einem vorgegebenen Format übergeben werden. Zudem 
werden nur kurze, eingeschränkte Formulierungen unterstützt. Die Korrektheit der so erzeugten 
Tests wird von den Autoren nicht direkt vermessen. Stattdessen präsentieren sie in ihrer Publikation 
eine Fallstudie, in der sie anhand eines Projekts die Abdeckung der automatisch erzeugten Tests 
mit Tests vergleichen, die manuell von einem Test-Ingenieur erstellt wurden. Die Auswertung zeigt, 
dass die automatisch erzeugten Tests wesentlich mehr Anwendungsfälle abdecken als die manuell 
erzeugten Tests. 


Das Werkzeug NAT2TEST von Carvalho et al. überführt natürlichsprachliche Anforderungsdo- 
kumente in Testfälle [Car+15]. Als internen Formalismus zur Darstellung von Abhängigkeiten 


aufeinander folgender Aktionen des zu erstellenden Testskripts verwendet der Ansatz die von Hoare 
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formulierte Sprache zur Kommunikation sequenzieller Prozesse (engl. Communicating Sequential 
Processes, kurz CSP). Die einzelnen Aktionen und zugehörigen Parameter extrahiert der Ansatz 
von Carvalho et al. mithilfe thematischer Rollen. Leider enthält die Publikation keine quantitative 
Untersuchung zur Leistungsfähigkeit des Ansatzes; stattdessen demonstrieren die Autoren lediglich 
die Verwendung des Werkzeugs anhand ausgewählter Beispiele. 


3.4.2 Erzeugung von Datenbankabfragen aus 
natürlichsprachlichen Äußerungen 


Auch wenn es nicht offensichtlich erscheint, herrscht zwischen den Forschungsgebieten der Endnutzer- 
Programmierung mit natürlicher Sprache und der Erzeugung von Datenbankabfragen aus natürlich- 
sprachlichen Äußerungen eine enge Verwandtschaft. Um Informationen aus Datenbanken abzufragen, 
müssen ebenfalls programmatische Anweisungen in einer bestimmten Abfragesprache generiert 
werden; dies ähnelt stark der Erzeugung von API-Aufrufen (wie von den meisten Ansätzen aus dem 
Gebiet der Programmierung mit natürlicher Sprache durchgeführt). Auch die eingesetzten Techniken 
ähneln sich??} es ist daher nicht verwunderlich, dass viele Ansätze zur Endnutzer-Programmierung 
mit natürlicher Sprache (insbesondere solche, die semantische Zerteilungen verwenden) unter 
anderem anhand von Datensätzen evaluiert werden, die ihren Ursprung im Gebiet der Erzeugung von 
Datenbankabfragen aus natürlichsprachlichen Äußerungen haben, wie beispielsweise GeoQuery und 
WikiSQL (siehe [Abschnitt 3.3). Die verschiedenen Ansätze aus dem Bereich natürlichsprachlicher 
Anfragen an Datenbanken ähneln sich hinsichtlich ihrer Zielstellung aufgrund der beschränkten 


Domäne stark. Unterschieden wird diesbezüglich lediglich dahingehend, ob unterschiedliche Da- 
tenbankformate und -arten angesprochen werden können. Die meisten Ansätze fokussieren sich 
allerdings auf eine konkrete Abfragesprache, wie zum Beispiel SQL. Auch hinsichtlich der Mächtig- 
keit der potenziell unterstützten Primitive der Abfragesprache unterscheiden sich die Ansätze kaum. 
Folglich unterscheiden sie sich hauptsächlich hinsichtlich der verwendeten Übersetzungstechnik 
und in der Folge in der Qualität der erzeugten Abfragen. 


Eine übliche Technik ist die Verwendung spezieller Zerteilungsgrammatiken (engl. parser grammar). 
Zelle und Mooney trainieren beispielsweise einen spezialisierten Zerteiler (engl. parser) namens 
CHILL |ZM96]. CHILL entspricht in seiner Funktionsweise im Wesentlichen einem syntaktischen 
Zerteiler (siehe [Abschnitt 2.3.4.6); allerdings werden als Ergebnis der Zerteilung direkt Daten- 
bankabfragen erzeugt. Zelle und Mooney führen zudem den bereits in Abschnitt 3.3]erwähnten 
GeoQuery-Datensatz ein. Dieser basiert auf GEOBASE?| einer Sammlung von Information über 
die Geographie der Erde, kodiert als Prolog-Fakten. Zum Zeitpunkt der Erstellung des GeoQuery- 
Datensatzes umfasste GEOBASE 800 Prolog-Fakten. Für diese Fakten wurden von 50 Personen 250 


? Beispielsweise werden in beiden Forschungsgebieten Techniken aus dem Bereich der Informationsrückgewinnung 


(engl. information retrieval) und semantisches Zerteilen eingesetzt; auch die Überführung der natürlichsprachlichen 
Beschreibung in eine logische (Zwischen-)Repräsentation und anschließende Generierung programmatischer 
Anweisungen anhand der Repräsentation ist ein in beiden Forschungsgebieten gängiges Vorgehen. 

%3 GEOBASE: https://www.elsevier.com/solutions/engineering-village/content/geobase, zuletzt 
besucht am 12.02.2021. 
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passende natürlichsprachliche Anfragen gesammelf??| Die Autoren trainieren und evaluieren (bzw. 
testen) CHILL anhand dieses Datensatzes; dabei wird eine Genauigkeit von 84% auf der Testmenge 
erreicht. 


Rao et al. verwenden für ihren Ansatz sogenannte semantische Grammatiken (engl. semantic 


grammar) |Rao+10]. Diese erweitern Grammatiken zur syntaktischen Zerteilung um zusätzliche 


Nichtterminalsymbole und zugehörige händisch erstellte Produktionsregeln, die domänenspezi- 
fische Semantiken kodieren. Mithilfe der Produktionsregeln werden SOL-Abfragen direkt aus 
natürlichsprachlichen Eingaben erzeugt. Die Publikation enthält keine Evaluation des Ansatzes; 
stattdessen demonstrieren die Autoren die Funktionsweise ihres Ansatzes anhand ausgewählter 
Beispiele. Ein grundsätzlicher Nachteil des Ansatzes sind die manuell erstellten Produktionsregeln. 
Im Allgemeinen sind händisch erstellte Regelsätze nur schwierig erweiterbar; zur Erstellung wird ein 
eingehendes Verständnis der Domäne benötigt und es kann normalerweise nur schwer abgeschätzt 
werden, ob eine neue Regel tatsächlich eine Verbesserung bewirkt. Ein weiterer Nachteil sowohl 
dieses Ansatzes als auch des Ansatzes von Zelle und Mooney ist die unmittelbare Abbildung der 
natürlichsprachlichen Anfragen auf Datenbankabfragen. Dadurch können die Ansätze nur für genau 
diesen Anwendungsfall verwendet werden; zur Übertragung auf eine andere Domäne (oder nur eine 
andere Datenbank-Abfragesprache) müssen die Ableitungsregeln neu erstellt bzw. gelernt werden. 


Andere Ansätze verwenden daher eine semantische Zwischenrepräsentation der natürlichen Sprache. 
C-Phrase, entwickelt von Minock et al., verwendet Tupelkalküle als logische Zwischenrepräsentati- 
on [MONO8}. Natürlichsprachliche Eingaben werden von C-Phrase zunächst syntaktisch zerteilt 
und die Syntaxbäume mithilfe von Heuristiken in eine generische Zwischenrepräsentation überführt. 
Anschließend wird mithilfe eines zweiten Regelsatzes aus der Zwischenrepräsentation eine entspre- 
chende Datenbankabfrage generiert. Zur Evaluation von C-Phrase verwenden die Autoren 33 zufällig 
ausgewählte Beispiele des GeoQuery-Datensatzes; dabei ist nicht nur die Aussagekraft aufgrund 
dieses geringen Umfangs begrenzt, auch die Ergebnisse sind schwer zu deuten. Die Publikation 
enthält nur eine Grafik und keine Diskussion der erzielten Werte; die Präzision scheint aber bei 
circa 86% und die Ausbeute bei circa 88% zu liegen. Unabhängig von den Ergebnissen ist die 
Verwendung einer generischen Zwischenrepräsentation ein wesentlicher Vorteil des Ansatzes; die 
von Minock et al. verwendete Zwischenrepräsentation erfasst die Semantik der natürlichsprachlichen 
Anfrage unabhängig von der konkreten Datenbank-Abfragesprache. Das bedeutet, zur Anbindung 
einer neuen Abfragesprache müssen lediglich neue Regeln für die Abbildung von der Zwischenreprä- 
sentation auf konkrete Datenbankabfragen erstellt werden. Eine Übertragung des Ansatzes auf die 
Erzeugung von Programmskripten (abseits von Datenbankabfragen) erscheint jedoch nicht möglich: 
Die Zwischenrepräsentation ist zwar generisch, aber auf Datenbankabfragen spezialisiert; außerdem 
bleibt offen, wie groß der Aufwand für den zweiten Teil der Abbildung (Zwischenrepräsentation auf 
konkretes Sprachkonstrukt) tatsächlich ist. 


Eine weitere Gruppe von Ansätzen verwendet zur Synthese der Datenbankabfragen Domänenwissen, 
welches meist als Ontologie repräsentiert wird. Das Werkzeug PANTO von Wang et al. erzeugt 


?* Der GeoQuery-Datensatz wurde später auf 880 Anfragen erweitert und in dieser erweiterten Variante auch von den 


anderen in diesem Kapitel diskutierten Arbeiten verwendet. Zur Evaluation des Original-Ansatzes von Zelle und 
Mooney wurde allerdings nur der ursprüngliche Datensatz verwendet. 
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(teil-)automatisch aus einer Ontologie ein zugehöriges Lexikon [Wan+07]. Mithilfe des Lexikons 


können anschließend syntaktische Zerteilungen von natürlichsprachlichen Anfragen interpretiert 
und in SPARQL-Abfragen überführt werden. PANTO kann ausschließlich dafür verwendet werden, 
Informationen aus der Ontologie anzufragen. Wird die Ontologie ausgetauscht, muss lediglich 
das Lexikon neu generiert werden. Das bedeutet, PANTO kann prinzipiell zur Abfrage beliebiger 
Informationen verwendet werden, solange sich diese in einer Ontologie darstellen lassen. Die 
Autoren evaluieren PANTO unter anderem anhand des GeoQuery-Datensatzes. PANTO erzielt 
eine Präzision von 88% und eine Ausbeute von 86%; diese Werte sind vergleichbar mit den 
deutlich komplexeren (und aufwendigeren) Ansätzen, die semantische Zerteilungen verwenden 
(siehe/Abschnitt 3.3). Unklar ist allerdings, wie groß der Einfluss des Lexikons bei der Interpretation 
der natürlichsprachlichen Anfragen und wie groß der Aufwand bei einer manuellen Anpassung bzw. 
Erweiterung des Lexikons ist. Außerdem kann PANTO ausschließlich SPAROL-Abfragen erzeugen; 
ob sich ihr Ansatz auch mit anderen (Abfrage-)Sprachen verwenden lässt, lassen die Autoren offen. 


Auch AquaLog, entwickelt von Lopez et al., erzeugt ein Lexikon aus einer Ontologie [LMO4} LPMOS} 
Lop+07]. Allerdings ist AguaLog in der Lage, mehrere Wissensbasen mithilfe derselben Ontologie 
anzufragen. Natürlichsprachliche Anfragen werden in Prädikat-artige Abfragetripel übersetzt, mit 


denen die Ontologie abgefragt werden kann. Das Ergebnis wird dem Nutzer ebenfalls als Tripel 
präsentiert; ist das Ergebnis falsch oder wurde keine Antwort erzeugt, Kann der Nutzer mit dem 
System interagieren und seine Anfrage anpassen. Durch diese Rückmeldungen des Nutzers passt 
AquaLog sukzessive auch seine Übersetzungsregeln an. Die Autoren evaluieren ihren Ansatz in einem 


anspruchsvollen Kontext; sie verwenden Ontologien zu zwei Domänen: Universitätsstrukturen und 
Wein] Zu beiden Domänen sammeln Lopez et al. in einer Nutzerstudie 69 bzw. 68 Anfragen von 
Probanden, geben jedoch nur die Domäne, nicht aber die verfügbaren Informationen vor. Dadurch 
wird sichergestellt, dass die Probanden ihr Anfragen unvoreingenommen stellen; andererseits kann 
so versucht werden, Informationen zu erfragen, die gar nicht in der Ontologie enthalten sind. 
Dementsprechend fallen auch die Evaluationsergebnisse aus. AquaLog kann zunächst nur 33 der 69 
Anfragen zur ersten Domäne komplett richtig beantworten; davon können alleine siebzehn aufgrund 
fehlender Informationen in der Ontologie nicht beantwortet werden. Durch Interaktion mit den 
Probanden können zwölf weitere Fragen korrekt beantwortet werden, das heißt insgesamt 65%. Die 
Ergebnisse für die zweite Domäne fallen schlechter aus: Initial können nur zwölf von 68 Anfragen 
korrekt beantwortet werden; 35 können aufgrund fehlender Informationen in der Ontologie nicht 
beantwortet werden. Mit Nutzerinteraktion können immerhin fünf weitere korrekt beantwortet 
werden, insgesamt somit 25%. Letztlich lassen diese Ergebnisse keine abschließende Bewertung des 
Ansatzes zu. Die Problemstellung erscheint deutlich schwieriger als bei vergleichbaren Datensätzen 
(z. B. ATIS oder GeoQuery); außerdem ist der Datenumfang sehr gering, wodurch die Fragen, 
die aufgrund fehlender Modellierungen nicht beantwortet werden können, besonders ins Gewicht 
fallen. Die Autoren selbst attestieren AquaLog, dass die Fähigkeiten zur Interpretation der Semantik 


Die AKT Reference Ontology ist ein Ontologie, die beispielhaft universitäre Organisationsstrukturen, das heißt unter 
anderem Institute, Lehrstühle und Mitarbeiter, modelliert sind: http://projects.kmi.open.ac.uk/akt/ref- 
onto/, zuletzt besucht am 24.02.2021. 


2° Die Wine Ontology ist eine Beispiel-Ontologie zur Domäne Wein: https: //www.w3.org/TR/owl-guide/ | zuletzt 


besucht am 24.02.2021. 
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natürlichsprachlicher Anfragen noch nicht ausreichend sind, da viele Anfragen (bzw. Anfragetypen) 
nicht beantwortet werden können, weil das System diese nicht zuverlässig interpretieren Kann. 


Die Weiterentwicklung PowerAqua, ebenfalls entwickelt von Lopez et al., bietet eine verbesserte 
Sprachanalyse-Komponente und ist zudem in der Lage, automatisch relevante Wissensquellen 


zu identifizieren, die über das Internet zugänglich sind [LMUO6} Lop+12]. Antworten werden 


gegebenenfalls aus mehreren partiellen Informationen verschiedener Wissensquellen synthetisiert. 
Diese Problemstellung ist natürlich noch anspruchsvoller als die zuvor für AquaLog definierte: 
Zunächst müssen für eine natürlichsprachliche Anfrage Wissensquellen (das heißt Ontologien) 
identifiziert werden, die potenziell relevante Informationen enthalten. Anschließend muss die 
syntaktische Zerteilung der Anfrage auf Konzepte bzw. Individuen der Ontologien abgebildet 
werden; letztlich müssen die gewonnenen Informationen zu einer Antwort zusammengeführt 
werden. Für die Evaluation verwenden die Autoren dieses Mal zwei sehr umfangreiche Ontologien: 
S WETO? und DBpedia (siehe[Abschnitt 2.3.15.5 ). Als Testeingabe verwenden Lopez et al. erneut 
69 natürlichsprachliche Anfragen von sieben Nutzern; dieses Mal stellen sie jedoch sicher, dass 


für alle Anfragen mindestens eine der Ontologien die notwendigen Informationen enthält, um die 
Anfragen korrekt beantworten zu können. PowerAqua gelingt dies in der Evaluation in 48 von 
69 Fällen (70% Genauigkeit). PowerAqua ist insofern interessant, als es Anfragen anhand von 
Informationen aus unterschiedlichen Quellen beantworten kann. Allerdings resümieren die Autoren 
auch für PowerAqua, dass die Sprachverständnisfähigkeiten für die Problemstellung (noch) nicht 
ausreichend sind. 


Moderne Ansätze verwenden maschinelles Lernen. Aufgrund der verwendeten Techniken und den 
teils gleichen Evaluationsdatensätzen, könnten diese auch den Ansätzen, die semantische Zerteilung 
nutzen (siehe{Abschnitt 3.3), zugeordnet werden; die beiden nachfolgend diskutierten Ansätze werden 
jedoch ausschließlich zur Erzeugung von Datenbankabfragen verwendet, weshalb sie an dieser Stelle 


eingeordnet werden. Das Werkzeug Seg2SQL von Zhong et al. verwendet ein Sequenz-zu-Sequenz- 
Modell in Form eines neuronalen Netzes zur Erzeugung von SQL anhand von natiirlichsprachlichen 
Anfragen [ZXS17]; die genutzte Netzarchitektur ist ein bidirektionales LSTM (siehe[Abschnitt 2.2.2). 
Die Besonderheit des Ansatzes liegt im Trainingsmechanismus; die Autoren verwenden eine Art 
bestärkendes Lernen (engl. reinforcement learning, siehe Abschnitt 2.2). Konkret bedeutet das: 
Zunächst wird auf konventionellem Weg ein Grundmodell gelernt, das Datenbankabfragen erzeugt; 


die Systemantwort (der Datenbank) wird mit dem Goldstandard verglichen und das Model erhält 
einen Belohnung (engl. reward), falls ein korrektes Ergebnis erzielt wurde. Zum Trainieren und 


Testen des Modells erstellen die Autoren einen neuen Datensatz, den bereits in Abschnitt 3.3 


erwähnten WikiSOL-Datensatz. Zhong et al. verwenden eine SOL-Datenbankrepräsentation von 
Wikipedia und erzeugen anhand des Schemas und der Einträge zufällige (valide) Datenbankabfragen. 
Über eine Schwarmauslagerungsplattform (engl. crowd-sourcing plattform) lassen sie jeweils einen 
Probanden eine natürlichsprachliche Beschreibung erstellen; zwei weitere Probanden verifizieren, 
dass die Beschreibung zur Datenbankabfrage passt. Nach dem Training erzielt der Ansatz auf 
der Testmenge (dieses Datensatzes) eine Genauigkeit von 48%. Wie viele vergleichbare Ansätze 


27 


SWETO, kurz für Semantic Web Technology Evaluation Ontology: https: //corescholar .libraries.wright | 
edu/knoesis/74 1/| zuletzt besucht am 24.02.2021. 
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verwenden auch Zhong et al. ein Sequenz-zu-Sequenz-Modell, dass eine direkte Abbildung von 
natürlichsprachlicher Anfrage als Eingabe auf eine Datenbankabfrage (in einer bestimmten Sprache) 
erlernt; dadurch muss das Modell neu trainiert werden, sobald neuartige Anfragen gestellt, eine 
andere Datenbank angesprochen oder eine andere Anfragesprache verwendet werden soll. 


Iyer et al. präsentieren einen Ansatz, der mit verhältnismäßig geringem Aufwand an neue Domänen 
adaptiert werden kann [Iye+17]. Auch ihr Ansatz basiert auf einem bidirektionalem LS TM>| Sie 
trainieren allerdings nur ein Grundmodell, das sich automatisch an eine Domäne adaptiert und 


zusätzlich durch Nutzerrückmeldung verbessert werden kann. Sie demonstrieren diesen Ansatz 
anhand einer Datenbank, die Informationen über die Domäne wissenschaftliche Veröffentlichungen 
enthält. Das Modell wird lediglich anhand von 1746 synthetischen Ein-/Ausgabebeispielen trainiert, 
die automatisch anhand von 22 generischen Anfrage-Schablonen und dem Datenbankschema erzeugt 
werden. Anschließend veröffentlichen sie ihr System (bestehend aus dem vortrainierten Grundmodell 
und einer Formular-basierten Nutzerschnittstelle) zu Testzwecken über eine Schwarmauslagerungs- 
plattform und lassen Nutzer mit dem System interagieren. Zunächst kann das System nur 25% der 
natürlichsprachlichen Anfragen korrekt beantworten; zum Ende des Versuchs liegt die Genauigkeit, 
dank der Nutzerrückmeldungen, bei 65%. Iyer et al. zeigen mit ihrem Ansatz, wie die Adaption 
maschinell erlernter Modelle an eine neue Domäne mit vertretbarem Aufwand möglich ist. Wie viel 
Nutzerrückmeldung notwendig ist, um das Modell so weit zu adaptieren, dass es zuverlässig gute 
Ergebnisse erzielt, bleibt allerdings unklar. Das liegt zum einen daran, dass der Ansatz nur in einem 
Feldversuch getestet wurde. Zum anderen ist aus der Publikation nicht eindeutig ersichtlich, wie 
viele Mensch-System-Interaktionen notwendig waren, um das letztendliche Ergebnis zu erzielen; 
wahrscheinlich wurden aber 200 natürlichsprachliche Anfragen (und etwaige Rückmeldungen der 
Nutzer zur Korrektheit der Systemantwort) verarbeitet. Unklar ist auch, ob dieser Ansatz auf andere 
(und größere) Domänen übertragbar wäre; auch die Übertragbarkeit auf die Programmierung (von 
Skripten) erscheint fraglich: Die Erzeugung des Grundmodells basiert auf Datenbank-Schemata 
(die bei der einer Abbildung auf Quelltext nicht zur Verfügung stehen) und Anfrage-Schablonen, 
die auf Datenbankabfragen zugeschnitten sind. Außerdem werden nur einzelne Anweisungen (bzw. 
Abfragen) erzeugt; ob auch Sequenzen von Instruktionen und Kontrollstrukturen (zur Erzeugung 
von Programmen) mit diesem Ansatz gebildet werden könnten, wird von Autoren nicht diskutiert, 
erscheint aber nicht ohne Weiteres möglich. 


3.4.3 Virtuelle Assistenten 


Virtuelle Assistenten ähneln natürlichsprachlichen Datenbankschnittstellen hinsichtlich Zielsetzung 
und verwendeter Techniken stark. Virtuelle Assistenten beantworten Fragen des Nutzers, indem 
sie Informationen aus geeigneten Wissensbasen abfragen oder führen Befehle aus, indem sie die 
entsprechenden Dienstgeber ansprechen. In beiden Fällen wird die Nutzereingabe semantisch 
analysiert und in eine Abfragesprache überführt. Die weite Verbreitung von Smartphones sowie 


28 Zunächst weisen sie nach, dass ihre verwendete Netzkonfiguration ähnlich gute Ergebnisse wie vergleichbare 


Ansätze erzielen kann. Hierzu trainieren sie es Ende-zu-Ende auf den Datensätzen GeoQuery und ATIS und erzielen 
Testgenauigkeiten von 85% und 86%. 
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Tabelle 3.1: Verwandte Assistenzsysteme und Entwicklungs-Plattformen für konversationelle Schnittstellen (oder virtuelle 


Assistenten) je Unternehmen. 


Unternehmen Virtueller Assistent Entwicklungs-Plattform 
Google LLC Google Assistant”? Dialogflow?? 
Amazon.com, Inc. Amazon tend Amazon Lex 
Apple Inc. Sir SiriKit’* 
Microsoft Corporation Cortana?’ LUIS? 

Facebook, Inc. M?” wit.ai?® 

Samsung Electronics Bixby (viv)! Bixby Developer 
Alibaba Group Holding Limited AliGenig*! AliGenie 
Brainasoft Brain? — Inforobd* 
BlackBerry Limited BlackBerry Assistant] - 

Tencent Holdings Limited Xiaowei’ - 

Yandex N.V. Alice*® - 

Naver Corporation Clova*? - 


Nuance Communications, Inc 
IBM 


Nina*® 
Watson Assistant®?| 
Watson Virtual Agent 


technische Fortschritte in Spracherkennung und Sprachverständnis haben dazu geführt, dass alle 


bedeutenden Technologieunternehmen virtuelle Assistenten entwickeln. Die [Tabelle 3.1) listet 


bekannte virtuelle Assistenzsysteme. Über die jeweilige technische Umsetzung der Systeme ist 


leider wenig bekannt. Auch die tatsächliche Leistungsfähigkeit lässt sich schwer einschätzen. 


29 


Google Assistant: https ://assistant. google. com/ 


30 


Dialogflow: https: //cloud. google. com/dialogflow/ 


34 SiriKit: https: 


3% LUIS: https: //www. luis .ai/ 


37 Facebook M (eingestellt zum 19.01.2018): 
shutdown-bots-ai/| zuletzt besucht am 24.02.2021. 
wit.al: https: //wit. ai/| zuletzt besucht am 24.02.2021. 


zuletzt besucht am 24.02.2021. 

zuletzt besucht am 24.02.2021. 

Amazon Alexa: https: //developer. amazon. com/en-US/alexa/| zuletzt besucht am 24.02.2021. 
Amazon Lex: https: //aws. amazon. com/lex/, zuletzt besucht am 24.02.2021. 

Siri: https: //www.apple.com/siri/, zuletzt besucht am 24.02.2021. 
developer.apple.com/siri/, zuletzt besucht am 24.02.2021. 

Cortana: https: //www.microsoft.com/en-us/cortana/, zuletzt besucht am 24.02.2021. 

zuletzt besucht am 24.02.2021. 


https: //www.theverge.com/2018/1/8/16856654/facebook-m- 


39 Bixby: https://www. samsung .com/global/galaxy/apps/bixby/, zuletzt besucht am 24.02.2021. 


Bixby Developer: https: //bixbydevelopers.com 


“| AliGenie: https: //iap.aligenie.com/ 


Braina: https: //www.brainasoft.com/braina/ 


Inforobo: https: //inforobo.com/ 


# BlackBerry Assistant (stark eingeschränkte Funktionalität seit 01.08.2019): 


en/legal/blackberry-assistant 


zuletzt besucht am 24.02.2021. 
zuletzt besucht am 24.02.2021. 

zuletzt besucht am 24.02.2021. 
zuletzt besucht am 24.02.2021. 


https: //www.blackberry.com/us/ 


zuletzt besucht am 24.02.2021. 


Xiaowei: https: //xiaowei.qcloud.com/, zuletzt besucht am 24.02.2021. 


46 Alice: https://alice.yandex.ru/ 


47 Clova: https: //clova.ai/ko 


zuletzt besucht am 24.02.2021. 
zuletzt besucht am 24.02.2021. 


48 


Nina: https: //www.nuance.com/omni-channel-customer-engagement/digital/virtual-assistant/ 


nina. html, zuletzt besucht am 24.02.2021. 
W: 


atson Assistant: https ://www.ibm.com/cloud/watson-assistant/, zuletzt besucht am 24.02.2021. 
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Die Studie von Lopez et al. vergleicht Alexa, Cortana und Google Assistant unter anderem hin- 
sichtlich der Korrektheit und Natürlichkeit der Antworten [LQG18]. Im Ergebnis lassen sich kaum 
Unterschiede erkennen, wobei laut der Autoren Siri tendenziell mehr korrekte Antworten gibt 


und die Antworten des Google Assistant am natürlichsten wirken. Neben proprietären virtuellen 
Assistenzsystemen bieten die meisten Unternehmen zusätzlich Entwicklungsplattformen (ebenfalls 
gelistet in Tabelle 3.1), mit denen eigene Anwendungen an die entsprechende Infrastruktur ange- 


bunden werden kann. Das bedeutet, Entwickler können konversationelle Schnittstellen für eigene 
Softwareprodukte entwickeln. Diese sind dann jedoch nur mit der Infrastruktur des anbietenden 
Unternehmens kompatibel; mit SiriKit von Apple entwickelte Produkte können beispielsweise 
ausschließlich an Siri angebunden werden. Der Aufwand zur Entwicklung von konversationellen 
Schnittstellen auf diesen Plattformen ist erheblich. Um beispielsweise eine Applikation an das von 
Google angebotene Dialogflow anzubinden, muss der Entwickler nicht nur natürlichsprachliche 
Beispieleingaben liefern, sondern für diese zusätzlich den Zweck (engl. intent), die auszuführende 
Aktion und eine Parameter-Abbildung angeben. Die Qualität der erzeugten Schnittstelle hängt dabei 
stark von der Menge und Diversität der Beispieleingabe ab. 


In dem von Guzzoni et al. entwickelten Active wird eine Domäne, zum Beispiel Restaurantbesuche, 
als Ontologie modelliert, die eine Baumstruktur bilden |GBC06} |GCB06} |GBCO7]. Zusätzlich 
werden die Ontologien mit Verarbeitungsregeln versehen, wodurch sie aktiv werden. Diese Active 


Ontologies können dann natürlichsprachliche Eingaben verarbeiten, indem Blattknoten auf einzelne 
Wörter reagieren, die inneren Knoten die Informationen sukzessive zusammenführen und der 
Wurzelknoten schließlich einen Dienstgeberaufruf erzeugt. Die Logik innerhalb der Knoten muss 
dabei manuell über Prolog-artige Regelsätze definiert werden. Der Aufwand für den Entwickler ist 
dementsprechend hoch. Das US-Patent Nummer 8677377 [CG05] legt nahe, dass Active zumindest 
zu Beginn den Kern von Siri gebildet hat. Keine der Publikationen enthält eine quantitative 


Untersuchung der Fähigkeiten von Active, weshalb nicht eingeschätzt werden kann, ob der von 
Guzzoni et al. verfolgte Ansatz statthaft ist. 


Eine quelloffene und modulare Plattform zur Entwicklung virtueller Assistenten präsentieren Cam- 


pagna et al. mit Almond |Cam+17]. Almond besteht aus drei Subsystemen: einem Sprachverständnis- 


Modul, der Wissensdatenbank Thingpedia und der Laufzeitumgebung ThingSystem. Entwickler 
können in ThingPedia ausführbare Aktionen beliebiger Zielsysteme inklusive Parameterbelegun- 
gen und Bedingungen hinterlegen. Almond übersetzt anschließend natürlichsprachliche Eingaben 
mithilfe dieser Einträge in die System-eigene Sprache ThingTalk und bringt das erzeugte Skript 
auf ThingSystem zur Ausführung. Campagna et al. evaluieren Almond unter anderem anhand einer 
Nutzerstudie, die sie über eine Schwarmauslagerungsplattform (engl. crowd-sourcing plattform) 
durchführen. Probanden wurden aufgefordert, Anfragen an einen (imaginären) virtuellen Assistenten 
zu stellen. Hierzu sollten sich die Probanden in ein alltägliches Szenario hineinversetzen und 
versuchen, beliebige (zum Szenario passende) Aufgaben zu lésen?!| Auf diese Weise konnten 327 
natürlichsprachliche (textuelle) Äußerungen gesammelt werden. Allerdings wurde ein Großteil (256) 
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Watson Virtual Agent: https: //www.ibm.com/watson/developercloud/doc/virtual-agent/de/index | 
htm1, zuletzt besucht am 24.02.2021. 

7 Beispielsweise sollten sich die Probanden in die Rolle eines Restaurantmangers oder eines Ladenbesitzers hineinver- 
setzen. 
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noch vor der Auswertung aussortiert; betroffen waren solche Äußerungen, die (laut der Autoren) 
keine sinnvollen Anfragen darstellten, nicht vom Funktionsumfang von Almond abgedeckt werden 
(das heißt nicht auf eine in Thingpedia hinterlegte Zielsystemfunktion abgebildet werden können) 
oder nicht im richtigen Format abgegeben wurden | Für die übrigen 71 Anfragen wurden Musterlö- 
sungen erstellt. Almond kann für 34% dieser Anfragen einen korrekten (ThingTalk-)Aufruf erzeugen. 
Die Autoren resümieren, dass Almonds Sprachverständnisfähigkeiten noch nicht ausreichend sind, 
um frei formulierte Anfragen in einem offenen Szenario zuverlässig zu verarbeiten. 


Almonds Nachfolger Genie, ebenfalls entwickelt von Campagna et al., setzt genau an diesem Punkt 


an [Cam+19]: Die Weiterentwicklung des Sprachverständnis-Moduls wird vereinfacht. Hierzu 


entwerfen die Autoren die sogenannte Virtual Assistant Programming Language (kurz VAPL). 
VAPL ermöglicht die einfache Definition von Funktionen, die ein bestimmter Service anbietet. 
Damit Genie zuvor definierte Funktionen abrufen kann, müssen zudem (laut der Autoren) nur 
wenige Beispielanfragen (in Form von Schablonen) und einige Paraphrasierungen je Konstrukt 
angeben werden. Anhand der Schablonen werden automatisch synthetische natürlichsprachliche 
Konstrukte erzeugt, die wiederum zum Training eines neuronalen Netzes verwendet werden. 
Auf diese Weise kann mit geringem Aufwand seitens eines Entwicklers die Sprachverständnis- 
Komponente an einen neuen Dienst angepasst werden. Leider wird dieser neue Ansatz nicht 
vergleichend anhand des zuvor (für Almond) erstellten Datensatz evaluiert. Stattdessen wird für 
einen Musik-Dienst demonstriert, wie gut das Sprachverständnismodell anhand synthetischer 
Eingaben und (manuell erstellter) Paraphrasierungen trainiert werden kann; auf der Testmenge, 
die aus einem Teil der Paraphrasierungen besteht, wird eine Genauigkeit von 85% erreicht. 
Bedingt durch den Versuchsaufbau ähneln sich die Anfragen in der Trainings- und Testmenge 
allerdings stark; eine Nutzerstudie mit echten Anfragen an das System wäre zur Einschätzung der 
Sprachverständnisfähigkeiten von Genie wünschenswert. Die beiden Systeme Almond und Genie 
zeigen aber, wie Sprachverständnis und Zielsysteme effektiv entkoppelt werden können, wodurch 
die Anbindung neuer Systeme mit geringerem Aufwand möglich wird. Die Sprachverständnis- 
Komponente benötigt nichtsdestotrotz eine Menge von Anfrage-Schablonen und Paraphrasierungen, 
die je Funktion, die ein Dienstgeber anbietet, manuell erstellt und dem System zur Verfügung 
gestellt werden müssen. Anhand der publizierten Evaluationen lässt sich nicht abschätzen, wie hoch 
der tatsächliche manuelle Aufwand ist, um das Sprachverständnis an eine Domäne bzw. ein neues 


Zielsystem anzupassen. 


3.5 Vergleich und Zusammenfassung 


Die in den vorangegangen Abschnitten vorgestellten verwandten Arbeiten unterscheiden sich 
hinsichtlich Zielstellung, Sprachanalysefähigkeiten und Funktionsumfang. Auch im Vergleich mit 
Proy% zeigen sich Gemeinsamkeiten und Unterschiede. In den [Tabellen 3.2} 3-3|und 3.4 (am Ende 
Abschnitts) werden die verwandten Arbeiten anhand der in{Abschnitt 1.2|aufgestellten Zieldefinition 


> Hierzu zählen beispielsweise Anfragen, die Zeichenketten (zur Beschreibung von Eigennamen) enthielten, die nicht 


in Anführungszeichen gesetzt wurden. 
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mit Prof, verglichen. Als Vergleichsgrundlage dient eine Auswahl der ebendort formulierten 
Ziele, die durch Prog% erreicht werden sollen. Nicht alle zuvor diskutierten Arbeiten fließen in den 
Vergleich ein. So werden die historischen Systeme, Arbeiten, die nur Teilaufgaben betrachten, wie 
zum Beispiel die zeitliche Ordnung von Aktionen, sowie alle proprietären Systeme vom Vergleich 
ausgeschlossen. 


Die meisten Ansätze sind für die Verwendung durch Programmier-Laien geeignet. Nur die in 


Abschnitt 3.2| diskutierten Arbeiten, die sich direkt an Entwickler richten, sowie Ansätze zur 


automatischen Testerzeugung aus Beschreibungstexten bilden Ausnahmen. Darüber hinaus sind 
einige Ansätze, die für die Domäne Robotik entwickelt wurden, nicht oder nur eingeschränkt für die 
Verwendung durch Nicht-Programmierer geeignet. Dies kann über die systemnahe Programmierung 
und der daraus resultierenden sehr technischen Sprache begründet werden. Mit Ausnahme der 
Systeme zum gesprochenen Quelltext-Diktat (Spoken Java und VoiceCode), APPINITE und den 
virtuellen Assistenten Almond und Genie ist kein Ansatz für die Verwendung gesprochener Sprache 
geeignet. Konzeptionell lassen sich viele Ansätze zwar auf den Einsatz mit gesprochener Sprache 
übertragen, zum Beispiel durch die Verwendung eines vorgeschalteten automatischen Spracherken- 
nungssystems. Allerdings betrachtet keine Arbeit die besonderen Herausforderungen gesprochener 
Sprache im Vergleich zu geschriebener Sprache, wie ungrammatikalische Formulierungen, Füll- 
wörter, Reparaturen oder Wortfehlerkennungen durch ein automatisches Spracherkennungssystem 
(siehe[Abschnitt 2.3.12). Eine eingehende Diskussion dieser Problematik befindet sich in|Kapitel 5| 


Hinsichtlich der Mächtigkeit der Sprachverständnis-Komponenten unterscheiden sich die Ansätze 
stark. Zwar ermöglichen mehr als zwei Drittel prinzipiell uneingeschränkte natürlichsprachliche 
Formulierungen. Allerdings ist anhand der jeweils verwendeten Techniken zur Analyse der natür- 
lichen Sprache anzunehmen, dass die Qualität der Erkennung einzelner Sprachkonstrukte stark 
schwankt. Außerdem passen einige Ansätze ihre Sprachanalyse-Techniken auf die jeweilige Domäne 
an. Dadurch verbessert sich zwar die Qualität unter der jeweiligen Zielstellung, die Allgemeingül- 
tigkeit wird jedoch eingeschränkt. Bei Ansätzen, die maschinelles Lernen verwenden, hängt die 
Qualität der Sprachanalyse stark von dem verwendeten (Text-)Korpus ab. Enthält dieses nur wenig 
unterschiedliche oder stark auf die Domäne fokussierte Formulierungen, ist eine Überanpassung 
wahrscheinlich. 


Bis auf die Systeme Metafor und Pegasus erzeugen alle ausführbaren Quelltext. Selbst die Ansätze, 
die Entwickler lediglich durch die automatische Erzeugung von Makros und Programmschnipsel 
unterstützen, erzeugen diese laut der Autoren so, dass sie direkt verwendet werden können. Eine 
Überprüfung durch den Entwickler ist allerdings empfehlenswert. Bei den Systemen zur Endnutzer- 
Programmierung mit natürlicher Sprache ist ein Eingreifen durch den Benutzer nicht vorgesehen, 
weshalb das Quelltext-Generat ausführbar sein sollte. 


Das Erzeugen von komplexen Skripten wird nur von gut der Hälfte der Ansätze unterstützt, 
wobei die tatsächlich mögliche Komplexität stark schwankt: Einige Ansätze können lediglich zwei 
Funktionsaufrufe sequenziell verknüpfen, andere erlauben einzelne Kontrollstrukturen und einige 
sogar geschachtelte Kontrollstrukturen und die Verwendung lokaler Variablen. Beiden Ansätzen zum 
Quelltext-Diktat ergibt sich die Unterstützung Komplexer Programmabläufe nicht aus der Qualität 
der Ansätze, sondern aus der Übertragung der Komplexität auf den Nutzer. Dadurch, dass der 
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Nutzer jedwedes Konstrukt programmatisch beschreiben muss, inklusive zum Beispiel dem Beginn 
und Ende von bedingten Verzweigungsblöcken, sind komplexe Strukturen bei korrektem Diktat 
möglich. Bei den natürlichsprachlichen Datenbankschnittstellen gehören komplexe Aufrufe schlicht 
nicht zur Zielstellung, obwohl mehrfache verknüpfte Datenbankabfragen natürlich möglich sind. 
Ob diese allerdings sinnvoll mit natürlicher Sprache formuliert werden können, ist fraglich. Einzig 
PowerAqua synthetisiert zusammengesetzte (Teil-)Abfragen von unterschiedliche Wissensbasen 
und erzeugt für den Nutzer eine fusionierte Antwort. 


Die wenigsten Arbeiten unterstützen die Definitionen neuer Funktionen; die meisten dienen folglich 
streng genommen nur der Steuerung, nicht aber der Programmierung von Computersystemen. Dies 
gilt insbesondere für alle Ansätze zur Endnutzer-Programmierung mit natürlicher Sprache (mit 
Ausnahme von SmartSynth und einigen Ansätzen aus der Domäne Robotik). Für die Quelltext- 
Diktat-Ansätze gilt auch hier die gleiche Argumentation wie für die Komposition komplexer 
Skripte. Dass einige Ansätze, die auf die Verwendung in der Domäne Robotik spezialisiert sind, die 
Definition neuer Funktionalität unterstützen, unterstreicht die Wichtigkeit der natürlichsprachlichen 
Programmierung in diesem Bereich. 


Nahezu alle Systeme sind (mehr oder weniger) unabhängig von dem konkreten Zielsystem, mit 
dem sie verwendet werden können. Einzig die Systeme aus der Robotik-Domäne sind bereits 
konzeptionell stärker an das Zielsystem gebunden und treffen häufig Annahmen über das jeweils 
verwendete Robotersystem. Lediglich der Ansatz von Markievic et al. erlaubt es, unterschiedliche 
Robotersysteme unter Verwendung derselben natürlichsprachlichen Schnittstelle anzusprechen. Viele 
der anderen Ansätze unterstützen ausschließlich einen bestimmten Typ von Zielsystem, zum Beispiel 
Datenbanken oder grafische Benutzeroberflächen. Mit Ausnahme der Quelltext-Diktat-Ansätze 
sind die übrigen Arbeiten zwar konzeptionell auf beliebige Zielsysteme übertragbar, müssen aber 
angepasst werden. Im Fall von Ansätzen, die überwachtes maschinelles Lernen verwenden, bedeutet 
dies, dass pro Zielsystem ein hinreichend umfangreiches Korpus, inklusive Goldstandard, vorhanden 
sein muss. Andere Ansätze, wie die von Atzeni und Atzori oder NLCT, lassen sich einfach und 
gegebenenfalls (teil-)automatisch mithilfe von Domänen-Ontologien konfigurieren. Auch Prof, 
bildet hier keine Ausnahme und muss ebenfalls mit Domänen-Ontologien konfiguriert werden, die 
ähnlich zu denen von NLCI verwendeten strukturiert sind (siehe [Abschnitt 5.4). Allerdings kann 
Pro/,, die Konfiguration zur Laufzeit automatisch vornehmen; das bedeutet, Prof, kann aus 
einer Auswahl bereitgestellter Domänen-Ontologien diejenige bestimmen, die am besten zu einer 
natürlichsprachlichen Äußerung passt (siehe Abschnitt 7.9). 


Fast alle Ansätze sind auf die Verwendung mit einer Programmiersprache festgelegt; einige Autoren 
argumentieren, dass sich ihr Ansatz (konzeptionell) auf andere Programmiersprachen übertragen 
lässt, ein Nachweis wird jedoch selten erbracht. Für die Ansätze, die überwachte Lernmethoden 
verwenden, gilt ähnliches wie für die Zielsystemunabhängigkeit, da diese in den meisten Fällen mit 
der verwendeten Programmiersprache zusammenhängt. Das bedeutet, ein Ansatz, der Abbildungen 
von natürlicher Sprache auf ein Robotersystem, programmiert in Java, lernen kann, kann dies 
prinzipiell auch für ein Hausautomationssystem, programmiert in C, sofern die entsprechenden 
Lerndaten zur Verfügung stehen (was normalerweise nicht der Fall ist). Die natürlichsprachlichen 
Datenbankschnittstellen unterstützen wiederum ausschließlich Datenbanksprachen. Einige davon 
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unterstützen nur bestimmte Sprachen, andere konzeptionell alle. AguaLog und PowerAqua hingegen 
funktionieren durch die Verwendung von Abfragetripeln unabhängig von der jeweiligen Daten- 
banksprache. Pro, ist nahezu völlig unabhängig von der verwendeten Programmiersprache. Die 
voneinander unabhängige Erzeugung des abstrakten Syntaxbaums, der Zielsystemfunktionsabbildung 
und der Programmiersprachendefinition, ermöglicht die Anbindung neuer Programmiersprachen 


mit geringerem Aufwand (siehe Kapitel 5lund 8). 


Zusammenfassend lässt sich festhalten, dass keine der verwandten Arbeiten diemitPro//,, verfolgten 
Ziele umsetzt. Zwar sind die meisten Systeme für eine Verwendung durch Programmier-Laien 
geeignet, jedoch unterscheiden sich die Ansätze hinsichtlich der Qualität der Sprachanalysen, was die 
Formulierung, die ein Nutzer verwenden kann, unterschiedlich stark einschränkt. Die Verwendung 
von gesprochener Sprache (als vorrangiges Eingabemedium) zur Endnutzer-Programmierung wird 
von keiner verwandten Arbeit unterstützt. Zwar erzeugen nahezu alle Ansätze ausführbaren Quelltext, 
aber nur gut die Hälfte ermöglicht die Formulierung komplexer Abläufe; vor allem moderne Ansätze 
zur Endnutzer-Programmierung, die semantische Zerteilungen bzw. maschinelles Lernen verwenden, 
sind größtenteils nur zur Erzeugung einzelner Funktionsaufrufe geeignet. Nur einige sehr wenige 
Ansätze betrachten die Definition neuer Funktionen (und damit die eigentliche Programmierung). 
Während die meisten Ansätze zumindest konzeptionell vom konkreten Zielsystem unabhängig sind, 
legen sich die meisten auf eine konkrete Programmiersprache fest. 


Tabelle 3.2: Vergleich von Proy,, mit verwandten Arbeiten anhand von Kriterien, die Pro, erfüllen soll: Ein 
ausgefüllter Kreis symbolisiert (°), dass der jeweilige Ansatz das Kriterium vollumfänglich erfüllt, und ein leerer Kreis 
(o), dass das Kriterium teilweise (bzw. mit Einschränkungen) erfüllt wird. Ist keine Markierung vorhanden, erfüllt der 
Ansatz das Kriterium nicht. 


Programmiersprachen- 


uneingeschränkte 
unabhängig 


geeignet 
gesprochene 
Sprache 
Sprache 
ausführbarer 
Quelltext 
neue 
Funktionen 
Zielsystem- 
unabhängig 


Laien- 


System 


Spoken Java |Beg04} 
VoiceCode |DFNO6 


Metafor ||LLOSa} 


NLP for NLP |MLLO6] b s 0 o $ 


Prof; ° e ° ° e e ° ° 
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Tabelle 3.3: Vergleich von Proy,,, mit verwandten Arbeiten anhand von Kriterien, die Prog% erfüllen soll (erste 
Fortsetzung): Ein ausgefüllter Kreis symbolisiert (°), dass der jeweilige Ansatz das Kriterium vollumfänglich erfüllt, 
und ein leerer Kreis (o), dass das Kriterium teilweise (bzw. mit Einschränkungen) erfüllt wird. Ist keine Markierung 
vorhanden, erfüllt der Ansatz das Kriterium nicht. 


Programmiersprachen- 


uneingeschränkte 
unabhängig 


Laien- 
geeignet 
gesprochene 
Sprache 
Sprache 
ausführbarer 
Quelltext 
komplexe 
Skripte 
neue 
Funktionen 
Zielsystem- 
unabhängig 


SWIM [RWH16 
Gu et al. IGu+16] 
Voxelrun [Wan 17] 


Rabinovich et al. [|RSK17 ° e ° ° o o 
Dong und Lapata [DL18] e ° ° o ° 
NL2Bash |Lin+18] 
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Tabelle 3.4: Vergleich von Pro, mit verwandten Arbeiten anhand von Kriterien, die Pro, erfüllen soll (zweite 
Fortsetzung): Ein ausgefüllter Kreis symbolisiert (°), dass der jeweilige Ansatz das Kriterium vollumfänglich erfüllt, 
und ein leerer Kreis (o), dass das Kriterium teilweise (bzw. mit Einschränkungen) erfüllt wird. Ist keine Markierung 
vorhanden, erfüllt der Ansatz das Kriterium nicht. 
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4 PARSE - Eine agentenbasierte 
Architektur für tiefes 
Sprachverständnis 


„Data is not information, information is not knowledge, 


knowledge is not understanding, understanding is not wisdom. “ 


— Clifford Stoll 


In dieser Arbeit wird ein neuartiger Ansatz zur Programmierung mit natürlicher Sprache präsentiert 
und als konkretes System umgesetzt (siehe Kapitel 5). Das System Proy,,, soll die bekannten 
Einschränkungen verwandter Ansätze überwinden. Insbesondere soll Prof, ein tieferes Ver- 


ständnis natürlicher Sprache ermöglichen und dadurch die Möglichkeit bieten, auch komplexe 
Programmstrukturen aus gesprochenen Äußerungen zu synthetisieren. Außerdem soll Proy,, wei- 
testgehend domänenunabhängig agieren und dadurch mit geringem Aufwand auf neue Zielsysteme 
und Umgebungen adaptiert werden können (siehe[Abschnitt 1.2). 


Um diese Zielstellungen umsetzen zu können, wurde als Grundlage für Pro, die Architektur 


PARSE (kurz für Programming Architecture for Spoken Explanations) entworfen [WT15]. Die 


Architektur ist agentenbasiert und ermöglicht die Entwicklung von Systemen für tiefes Sprachver- 
ständnis gesprochener Äußerungen. Ein tiefes Verständnis natürlicher Sprache ist die Voraussetzung, 


um Programmierung mit gesprochener Sprache zu ermöglichen (siehe|Abschnitte 2.3.11]und]2.3.12). 


Verwandte Ansätze zur Programmierung mit natürlicher Sprache stellen fast ausnahmslos Spe- 


ziallösungen dar (siehe |Abschnitt 3.3); das bedeutet, sie wurden zur Lösung einer bestimmten 


Problemstellung entwickelt und sind für diese optimiert (wie z. B. die Funktionserweiterung eines 
intelligenten Assistenzsystems [Li+18]]). Die Umsetzung erfolgt üblicherweise monolithisch; das 


bedeutet, es wird genau eine Technik verwendet, um die Problemstellung zu lösen: Ausgehend 
von der natürlichsprachlichen Eingabe analysieren derartige Systeme entweder regel-, statistik- 
oder wissensbasiert die Sprache und generieren ein Ergebnis, z. B. Aufrufe an eine Web-API. Die 
syntaktische Analyse und semantische Interpretation der Sprache sowie die daraus abgeleitete Syn- 
these programmatischer Strukturen werden als eine zusammenhänge Analyse modelliert!| Dadurch 
sind derartige Ansätze nur schwer erweiter- und änderbar und können nur im Ganzen evaluiert 
werden. Damit ist auch eine zielgerichtete bzw. punktuelle Verbesserung der Analyseergebnisse 


Einige Ansätze verwenden zwar auch Kombinationen (z. B. eine regelbasierte Nachverarbeitung einer statistikbasierten 
Klassifikation), eine Systematisierung der Kombinationsmöglichkeiten findet aber nicht statt. 
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kaum möglich. Die Spezialisierung verwandter Ansätze bringt ein weiteres Problem mit sich. In die 
durchgeführten Sprachanalysen fließt häufig Wissen über die Anwendungsdomäne ein. Zusammen 
mit dem zumeist monolithischen Aufbau hat dies zur Folge, dass unklar ist, inwiefern sich derartige 
Ansätze auf andere Domänen übertragen lassen und welchen Aufwand dies nach sich ziehen würde. 


Der wesentliche Unterschied der Architektur PARSE gegenüber bestehenden Ansätzen liegt in der 
starken Modularisierung. PARSE ermöglicht die Verwendung von (voneinander unabhängigen) 
Agenten zur Analyse der Semantik natürlichsprachlicher Äußerungen. Dadurch ist es möglich, für 
einzelne sprachliche Phänomene Agenten einzusetzen (beispielsweise zur Analyse von sprachlichen 
Referenzen, Konditionalsätzen oder Bedeutungen einzelner Wörter im Kontext). Durch die Verwen- 
dung unabhängiger Agenten kann zudem jeweils ein anderer Analyseansatz gewählt werden. Damit 
ermöglicht PARSE die Entwicklung von Systemen, die eine Kombination von sowohl statistik-, 
regel- als auch wissensbasierten Analysen durchführen. Die Kombination der Analyseergebnisse 
wird von der Architektur vorgenommen. Durch das Zusammenspiel unterschiedlicher, spezialisierter 
Agenten kann ein tieferes Verständnis natürlicher Sprache erreicht werden als es mit monolithischen 
Ansätzen möglich ist. PARSE ermöglicht zudem die Trennung von Modulen zur Sprachanalyse 
und der Anwendungsdomäne (z. B. die API einer konkreten Anwendung), indem eine Schnittstelle 
zu Domänenwissen angeboten wird. Durch diese Trennung können auf PARSE basierende Sys- 
teme einfach adaptiert werden; es muss lediglich das Domänenwissen ausgetauscht werden; die 
Sprachanalysen können wiederverwendet werden. Ein weiterer Vorteil der Modularisierung ist, dass 
einzelne Agenten unabhängig voneinander evaluiert, adaptiert und ausgetauscht werden können. 


Die Definition von Teilproblemen und die damit einhergehende Modularisierung von Werkzeugen 
ist ein etabliertes Vorgehen in der Computerlinguistik. Die Verwendung von Fließbändern zur 
Analyse der Syntax natürlicher Sprache ist ein häufig angewandter Ansatz (siehe|Abschnitt 2.3.4). 
Allerdings werden Fließbänder vorrangig zur Analyse von Textdokumenten verwendet; Ansätze zur 


Analyse von gesprochener Sprache sind hingegen weitestgehend monolithisch. Zudem beschränken 
sich die meisten Computerlinguistikfließbänder auf die Analyse syntaktischer Eigenschaften. Die 
Schwierigkeit bei der Analyse der Semantik ist, dass zwar auch für diese Teilaufgaben definiert 
werden können. Allerdings ist im Allgemeinen nicht klar, welche Reihenfolge für die einzelnen 
Analysen gewählt werden sollte. Vorarbeiten haben zudem gezeigt, dass zirkuläre Abhängigkeiten 
zwischen Analysen bestehen [LWT17b]. Daher verwendet PARSE zur Analyse der Semantik 
keine Fließbänder. Stattdessen führen die Agenten ihre Analysen nebenläufig aus. Dadurch können 


Agenten Teilergebnissen anderer Agenten für ihre eigenen Analysen verwenden und ihrerseits 
neue Analysegrundlagen schaffen. Die eigentliche Problemstellung (z. B. Programmierung mit 
gesprochener Sprache) wird durch das Zusammenspiel der Agenten gelöst. 


Die Architektur PARSE ermöglicht die Entwicklung beliebiger Systeme zur Analyse gesprochener 
Sprache. Das bedeutet, PARSE ist nicht auf eine bestimmte Problemstellung festgelegt. Neben 
der Verwendung für die Programmierung mit gesprochener Sprache, wie in [Kapitel 5]beschrieben, 
können auch andere Anwendungen, die ein tiefes Verständnis natürlicher Sprache voraussetzen, mit 
PARSE umgesetzt werden. Auf Grundlage von PARSE werden neben Prof, bereits zwei weitere 
Systeme entwickelt. Zum einen wird ein Ansatz umgesetzt, der anhand semantischer Modelle für 


Anforderungstexte und zugehörige Quelltexte Rückverfolgbarkeitsinformationen generiert [Hey19]. 
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Zum anderen entsteht derzeit ein System, welches die Konsistenz von Modellbeschreibungen und 
konkreten Softwarearchitekturen prüft [KK19}/KSK19]. 


In den nachfolgenden Abschnitten werden zunächst die Anforderungen an die Architektur und die 
daraus abgeleiteten Design-Prinzipien diskutiert (Abschnitt 4.1). Anschließend wird der Aufbau 
von PARSE beschrieben und die Verwendungsmöglichkeiten der einzelnen Bestandteile dargelegt 
(siehe Abschnitt 4.2). 


4.1 Anforderungen und Design-Prinzipien 


Der Entwurf der Architektur PARSE unterliegt vorab definierten Design-Prinzipien. Die Prinzipien 
werden aus Anforderungen an die Architektur bzw. potenzielle Systeme, die auf PARSE basieren, 


abgeleitet. Die Anforderungen sind Präzisierungen der in|Abschnitt 1.2\definierten Zielstellung bzw. 


daraus folgende Qualitätseigenschaften. Im Folgenden werden zunächst die Anforderungen und 
anschließend die daraus resultierenden Prinzipien diskutiert. 


4.1.1 Anforderungen 


Auf Grundlage der Architektur PARSE soll es möglich sein, Systeme zu entwickeln, die ein 
tiefes Verständnis natürlicher Sprache ermöglichen] Auf PARSE basierende Systeme sollen 
zudem für beliebige Anwendungsgebiete eingesetzt werden können; ein Anwendungsgebiet stellt 
die Programmierung mit gesprochener Sprache dar. Die Architektur soll so gestaltet werden, dass 
darauf aufbauende konkrete Systeme mit möglichst geringem Aufwand erweitert werden können. 
Um dies zu ermöglichen, sollten die einzelnen Bestandteile möglichst unabhängig voneinander 
agieren und dementsprechend auch weitestgehend unabhängig voneinander getestet und evaluiert 
werden können. Diese Anforderungen werden nachfolgend präzisiert. 


Tiefes Verständnis natürlicher Sprache 


Menschen kommunizieren über ihre Muttersprache ganz selbstverständlich untereinander. Kommu- 
nizieren Nutzer hingegen über eine Sprachschnittstelle mit einem Computersystem (z. B. mit einem 


virtuellen Assistenzsystem), lässt sich beobachten, dass sie ihr Sprachverhalten verändern |PFS17]. 


Beispielsweise versuchen Nutzer, sich besonders deutlich zu artikulieren, verwenden einfache Wörter, 
äußern nur kurze Aussagen (bzw. Anfragen) oder benutzen einfache Satzstrukturen. Der Grund 
hierfür ist, dass Nutzer sich an das System anpassen; aus Erfahrungen im Umgang mit dem jeweiligen 
System haben sie gelernt, wie sie Anfragen formulieren müssen, damit das System sie versteht. Zwar 
gelingt es Nutzern auf diese Weise das gewünschte Systemverhalten zu erzielen, die Kommunikation 
mit dem System gestaltet sich jedoch umständlich und unnatürlich. Die Nutzungserfahrung ist 
dementsprechend nicht optimal und die Bereitschaft die Sprachschnittstelle zu verwenden sinkt 
möglicherweise. 


2 Wie in Abschnitt 2.3.1 1leingeführt, ist damit ein umfassendes Verständnis natürlicher Sprache gemeint. Das bedeutet, 
es sollen sowohl in der Breite möglichst viele sprachliche Konstrukte analysiert als auch in der Tiefe möglichst genau 
und aussagekräftig beschrieben werden können. 


101 


4 PARSE - Eine agentenbasierte Architektur für tiefes Sprachverständnis 


Um die Nutzungserfahrung zu verbessern, sollten Nutzer sich nicht an das System anpassen müssen. 
Vielmehr sollte das System Nutzer so verstehen, wie es ein menschliches Gegenüber könnte. 
Dementsprechend sollte ein System für tiefes und allgemeines Verständnis natürlicher Sprache die 
Ausdrucksformen nicht einschränken. Die Möglichkeit Äußerungen frei zu formulieren bedeutet 
insbesondere, nicht an ein bestimmtes Vokabular gebunden zu sein. PARSE muss es daher ermögli- 
chen, Sprachanalysen zu entwickeln, die über die Erkennung von Signalwörtern hinausgehen. Auch 
hinsichtlich der Struktur von Äußerungen sollten Nutzer nicht eingeschränkt werden. Das bedeutet, 
auf PARSE basierende Systeme müssen in der Lage sein, die Semantik einer Äußerung unabhängig 
von der syntaktischen Struktur zu analysieren. Es sollte also beispielsweise keinen Unterschied 
machen, ob ein Nutzer eine Anfrage im Aktiv oder Passiv formuliert oder ob ein Modifikator 
durch ein Adjektiv ausgedrückt wird oder in einem Nebensatz erklärt wird?| Die Lange einer an 
das System gerichteten Äußerung sollte prinzipiell unbeschränkt sein“) Eine zugrundeliegende 
Architektur muss dementsprechend die Verarbeitung von Eingaben beliebiger Länge ermöglichen. 
Auch bezüglich des Inhalts sollten Nutzer nicht eingeschränkt werden. Es sollte beispielsweise 
möglich sein, Rückbezüge aufzustellen und Bedingungen zu formulieren. Eine Architektur sollte die 
Analyse und Darstellung komplexer und (sprachlich) weit entfernter Zusammenhänge ermöglichen. 
Letztlich sollten Nutzer möglichst spontan kommunizieren können. Spontane gesprochene Sprache 
schließt aber das potenzielle Auftreten von Versprechern, Verzögerungslauten und Selbstkorrekturen 
ein. Auch hierfür muss eine Architektur Darstellungsformen und Analysemöglichkeiten bieten. 


Trennung von Sprachanalysen und der Anwendungsdomäne 


Systeme für Endnutzer-Programmierung mit natürlicher Sprache sind meist auf eine Anwendungs- 
domäne zugeschnitten (siehe[Abschnitt 3.3). Beispielsweise ermöglichen sie die Programmierung 
eines speziellen Robotersystems, die interaktive Erweiterung eines virtuellen Assistenten oder 
die Erzeugung von Makros für Microsoft Excel. Die Ansätze, die derartigen Systemen zugrunde 
liegen, sind meist nicht auf andere Anwendungsdomänen übertragbar; sie stellen damit unflexible 
Speziallösungen dar. Eine Ursache hierfür ist, dass die meisten Ansätze Informationen über die 
Domäne in die Analyse der Sprache einfließen lassen. Dies gilt auch für statistikbasierte Ansätze; 
die probabilistischen Modelle werden anhand domänenspezifischer Daten erlernt. Daher ist unklar, 
inwieweit diese übertragbar sind. 


Um ein System zur Programmierung mit natürlicher Sprache auf andere Anwendungsdomänen 
übertragbar zu machen, sollte die Analyse der natürlichsprachlichen Eingaben konzeptionell so 
weit wie möglich von der Anwendung in einer konkreten Domäne getrennt werden. Das bedeutet, 
die zugrundeliegende Architektur sollte so aufgebaut sein, dass Module, die sprachliche Analysen 
durchführen, unabhängig von der Anwendungsdomäne entwickelt werden können. Gleichzeitig muss 
die Architektur einen wohldefinierten Zugang zu Domänenwissen ermöglichen (z. B. Wissen über 


Ein Großteil der verwandten Ansätze kann nur Eingaben verarbeiten, die eine gewisse syntaktische Struktur aufweisen 
(siehe [Kapitel 3). Einige fordern sogar Eingaben, die vorgeschriebenen Schablonen entsprechen, wie die sogenannten 
Wenn-Dann-Andernfalls-Rezepte [LGS 13}|QMG15}|/BQ 16}. Viele Zusammenhänge lassen sich aber nicht in wenigen 
Worten oder in festgelegten Schablonen formulieren. 

Die meisten verwandten Ansätze begrenzen entweder die Länge der Eingabe oder schränken die Menge der 


verwendbaren Formulierungen stark ein (siehe|Kapitel 3). 
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die Funktionen einer API), da anderenfalls keine konkreten Verfahren für konkrete Anwendungsdo- 
mänen entwickelt werden können. Durch die Trennung von Sprachanalyse und Domäne können 
Sprachanalysen weitestgehend wiederverwendet werden, wenn sich die Anwendungsdomäne ändert. 
Auf Architekturebene kann die Trennung jedoch nur ermöglicht, nicht aber erzwungen werden. Wie 
Domänen-agnostisch ein System entwickelt wird, obliegt der Umsetzung des konkreten Systems? 


Erweiterbarkeit 


Das tiefe und allgemeine Verständnis natürlicher Sprache stellt eine anspruchsvolle Aufgabe 
dar. Welche Analyseschritte nötig sind, um die Semantik einer Äußerung zu erfassen, kann 
vorab nur schwer definiert werden. Dies gilt insbesondere, wenn — wie zuvor diskutiert — eine 
Architektur entstehen soll, welche die Umsetzung von Systemen erlaubt, die in unterschiedlichen 
Anwendungsdomänen eingesetzt werden können. Unterschiedliche Anwendungsdomänen können 
verschiedene Anforderungen an die erforderlichen Sprachanalysen stellen; dementsprechend kann 
es bei der Anpassung auf eine Anwendungsdomäne nötig sein, Analysen zu verfeinern oder neue 
spezialisierte Analyseschritte hinzuzufügen. Sprachanalysen sollten also (sukzessive) verfeinert 
und neue Analyseschritte sollten mit geringen Auswirkungen auf das Gesamtsystem hinzugefügt 
werden können. Das bedeutet, dass Systeme möglichst einfach erweiterbar sein sollten. Diese 
Erweiterbarkeit sollte bereits von der zugrundeliegenden Architektur unterstützt werden. 


Unabhängigkeit 


Teilschritte von Sprachanalysen sollten möglichst unabhängig voneinander sein. Dadurch können 
unterschiedliche Ansätze pro Teilschritt gewählt werden. Die meisten verwandten Arbeiten setzen 
einen monolithischen Ansatz um, der entweder regel-, statistik- oder wissensbasiert ist (siehe 
Kapitel 3). Wird ein System hingegen in unabhängige Teilschritte untergliedert, kann für jeden 
Teilschritt ein anderer Ansatz gewählt werden. Auch die zuvor diskutierte Erweiterbarkeit von 


Sprachanalysesystemen lässt sich durch eine hohe Unabhängigkeit der Einzelbestandteile einfacher 
umsetzen. Zudem können Systeme so nicht nur erweitert werden, die Umsetzung einzelner Teilschritte 
kann auch durch einen anderen Ansatz ersetzt werden, ohne dass andere Bestandteile beeinflusst 
werden. Um Systeme entwickeln zu können, die aus unabhängigen Teilschritten bestehen, sollte eine 
zugrundeliegende Architektur die Verwendung abgeschlossener, unabhängiger Module anbieten und 
die Kommunikation zwischen diesen definieren. 


Evaluierbarkeit 


Aufgrund der herausfordernden Aufgabe der umfassenden Analyse der Semantik sollten Systeme 
für tiefes Verständnis natürlicher Sprache kontinuierlich evaluiert werden. Dabei sollte nicht nur 
die Qualität des Gesamtsystems evaluierbar sein; stattdessen sollte die zugrundeliegende Architek- 
tur die Test- und Evaluierbarkeit auf unterschiedlichen Granularitätsebenen unterstützen; neben 
dem Gesamtsystem sollten auch unabhängige Teilschritte — wie im vorangegangenen Paragraphen 
beschrieben — sowie Kombinationen dieser evaluiert und getestet werden können. Dies erfor- 
dert auch die Architektur-seitige Unterstützung, manuell erzeugte Zwischenergebnisse (das heißt 
Musterlösungen) Teilschritten als Analysegrundlage (das heißt als Eingabe) zur Verfügung zu stellen. 


° Gegebenenfalls kann die Entwicklung domänenabhängiger Sprachanalysen auch vorteilhaft sein, etwa zur Steigerung 


der Effizienz oder der Genauigkeit des Gesamtsystems. 
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4.1.2 Prinzipien 


Für den Entwurf der Architektur PARSE werden Design-Prinzipien formuliert. Diese leiten sich 
aus den zuvor diskutierten Anforderungen an die Architektur bzw. konkrete Systeme, die auf Basis 
der Architektur entwickelt werden sollen, ab. Dementsprechend setzt jedes Design-Prinzip eine 
oder mehrere Anforderungen um. Nachfolgend werden die Prinzipien erläutert und gegebenenfalls 
Bezüge zu den entsprechenden Anforderungen hergestellt. 


e Modularität: 
PARSE wird stark modularisiert aufgebaut. Das bedeutet, die Architektur wird es ermögli- 
chen, unterschiedliche Sprachanalysen in einzelnen Modulen umzusetzen. Einzelne Module 
können unabhängig voneinander entwickelt und evaluiert werden. Die Modularität ermöglicht 
es zudem Systeme nachträglich zu erweitern. Auch die Informationen über die Anwendungsdo- 
mäne können in einem eigenen Modul gekapselt werden; dadurch werden die Sprachanalysen 
konzeptionell von konkreten Anwendungsdomänen getrennt. 


e Parallelität: 
PARSE wird es ermöglichen, Sprachanalysen nebenläufig zueinander auszuführen. Die 
parallele Ausführung semantischer Analysen ermöglicht ein tieferes Verständnis natürlich- 
sprachlicher Äußerungen. Im Gegensatz zur Analyse der Syntax (siehe Abschnitt 2.3.4) kann 
die optimale Reihenfolge der Analysen zur Untersuchung der Semantik natürlichsprachlicher 
Äußerungen nicht allgemeingültig bestimmt werden. Durch die parallele Ausführung der 
Analysen können Teilergebnisse generiert und Teilergebnisse anderer Analysen verwendet 
werden. Analyseergebnisse können somit verfeinert und zyklische Abhängigkeiten aufgelöst 


werden®| 


e Definierte Kommunikation: 

PARSE ermöglicht den Austausch von Informationen zwischen den Modulen. Um die 
Module möglichst unabhängig voneinander gestalten zu können, ist jedoch keine direkte Kom- 
munikation vorgesehen. Stattdessen werden Informationen über eine geteilte Datenstruktur 
ausgetauscht: Module hinterlegen ihre Analyseergebnisse in der Datenstruktur und können 
ihrerseits Ergebnisse anderer Agenten verwenden indem sie diese auslesen. Eine Datenstruk- 
tur, die auf einem wohldefinierten Modell basiert, ermöglicht es zudem, Musterlösungen 
für Analyseergebnisse zu erstellen und diese als Evaluationsgrundlage zu nutzen, entweder 
zum Vergleich mit durch Sprachanalysen erzeugten Ergebnissen oder als Grundlage zur 
Durchführung anderer Sprachanalysen (die auf die Ergebnisse anderer Module angewiesen 
sind). Das für PARSE verwendete Datenmodell soll die Darstellung beliebiger Analyseergeb- 
nisse ermöglichen; das schließt insbesondere auch die Darstellung komplexer, abstrakter und 
impliziter sprachlicher Zusammenhänge ein. 


Beispielsweise könnte ein Teil einer Analyse A durchgeführt werden. Die Ergebnisse von A bilden die Grundlage für 
eine zweite Analyse B. Die Ergebnisse von B wiederum sorgen dafür, dass A weitere Analyseschritte durchführen 
kann. Derartige Verschränkungen können beliebig viele Analysen betreffen und wiederholt auftreten. 
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Agent A 


Agent E Agent F 


Abbildung 4.1: Struktureller Aufbau der Architektur PARSE 


4.2 Aufbau der Architektur PARSE 


Der Entwurf der Architektur PARSE beruht auf den zuvor beschriebenen Design-Prinzipien. 
Strukturell setzt sich PARSE grundlegend aus drei Bestandteilen zusammen: 


1. einem Vorverarbeitungsfließband 
2. der Einheit zur Analyse der Semantik (kurz EAS) und 
3. einem Nachverarbeitungsfließband. 


Diese Komponenten sind eingebettet in die Rahmenarchitektur (engl. framework) |BHS07 Luna 
(Language Understanding Architecture). Sämtliche Module, die zur Analyse von natürlicher Sprache 
dienen, das heißt die Stufen der beiden Fließbänder und die Agenten der EAS, werden als Einschübe 
(engl. Plug-Ins) umgesetzt. Die Rahmenarchitektur sorgt dafür, dass die Einschübe geladen und 


innerhalb der jeweiligen Komponente ausgeführt werden; die Fließbandstufen werden sequenziell in 
festgelegter Reihenfolge ausgeführt, die Module der EAS hingegen parallel. Die Rahmenarchitektur 
stellt darüber hinaus definierte Schnittstellen für den Zugriff auf externe Ressourcen, wie etwa eine 
Repräsentation der Anwendungsdomäne, zur Verfügung. Konkrete Systeme zur Analyse natürlicher 
Sprache können auf Basis von PARSE entwickelt werden, indem der Rahmenarchitektur Einschübe 
für die Fließbänder und die EAS sowie die benötigten externen Ressourcen zur Verfügung gestellt 
werden. Abbildung 4.1/stellt den Aufbau der Architektur schematisch dar. 


Für die einzelnen Komponenten sieht die Architektur PARSE in konkreten Systemen folgende 
Verwendungen vor: Vorverarbeitungsfließbänder dienen zur Anwendung von grundlegenden lexi- 
kalischen und syntaktischen Analysen. Somit sollen Fließbänder natürliche Sprache (in Textform 
oder als Audiosignal) entgegennehmen und soweit vorverarbeiten, dass anschließend die Semantik 
analysiert werden kann. Die vorverarbeitete Eingabe wird an die Einheit zur Analyse der Semantik 
weitergereicht. 
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Zur Analyse der Semantik natürlicher Sprache werden innerhalb der EAS sogenannte Agenten 
verwendet, die unabhängig voneinander agieren; für jedes (natürlichsprachliche) Phänomen kann 
ein eigener Agent entwickelt werden (z. B. zur Erkennung sprachlicher Referenzen). Die Agenten 
können für ihre Analysen intern beliebige Ansätze verfolgen. Ihre Analyseergebnisse hinterlegen sie 
in einer von der Rahmenarchitektur verwalteten Datenstruktur. Aus dieser Datenstruktur können 
die Agenten auch Informationen entnehmen und als Grundlage ihrer Analysen nutzen. Somit 
können die Agenten über die Datenstruktur Informationen (in Form von Analyseergebnissen) 
austauschen ohne direkt miteinander zu kommunizieren. Dadurch, dass Agenten für einzelne 
Phänomene entwickelt werden können, können einerseits jeweils hoch spezialisierte Lösungen 
implementiert werden. Andererseits können die Agenten einzeln dahingehend evaluiert werden, wie 
gut sie das jeweilige Phänomen erfassen. Die Agenten werden von der EAS parallel und wiederholt 
ausgeführt. Dadurch können sie potenziell von Analyseergebnissen anderer Agenten profitieren; 
unterschiedliche Sprachanalysen können sich so gegenseitig unterstützen. Beispielsweise hilft es, 
sprachliche Referenzen wie Anaphern aufzulösen, um den Kontext des Gesagten zu verstehen. 
Gleichzeitig können manche Referenzen nur mithilfe des Kontextes aufgelöst werden. Der Vorteil der 
Architektur besteht darin, dass durch parallele Verarbeitung der Eingabe zunächst einige Referenzen 
aufgelöst werden können. Mit diesen Informationen kann ein partieller Kontext aufgebaut werden, 
der es wiederum erlaubt, weitere Referenzen aufzulösen und so weiter. Durch die Kombination 
von Agenten können beliebig komplexe Systeme für tiefes Sprachverständnis entwickelt werden. 
Zudem können Agenten jederzeit weiterentwickelt, ausgetauscht oder hinzugefügt werden, ohne 
dass andere Agenten angepasst werden müssen. 


Ist die Analyse der Semantik abgeschlossen, erfolgt die Nachverarbeitung. Innerhalb dieses zweiten 
Fließbandes werden die Analyseergebnisse interpretiert und eine Ausgabe erzeugt. Ein System 
zur Programmierung mit natürlicher Sprache kann mithilfe des Nachverarbeitungsfließbandes 
beispielsweise schrittweise Quelltext generieren. 


Durch den dreigliedrigen Aufbau von PARSE können darauf aufbauende Systeme flexibel gestaltet 
werden. Für jedes System kann frei entschieden werden, welche Analysen sequenziell innerhalb 
der Fließbänder ausgeführt werden sollen und welche Analysen als Agenten umgesetzt werden 
sollten, da sie von einer parallelen Ausführung innerhalb der EAS profitieren. Da sowohl Agenten 
als auch Fließbandstufen als Einschübe umgesetzt sind, können Systeme beliebig zusammengesetzt 
werden. Einschübe können ausgetauscht, hinzugefügt oder entfernt werden, oder im Falle von 
Fließbandstufen in eine andere Reihenfolge gebracht werden. Natürlich ist es auch möglich, die 
konkrete Ausprägung eines Einschubs zu ändern; beispielsweise kann eine Fließbandstufe mit 
geringen Anpassungen auch als Agent verwendet werden und umgekehrt. 


Alle Bestandteile von PARSE sind unabhängig von einer konkreten Anwendungsdomäne. PARSE 
kann somit als Architektur für allgemeines Sprachverständnis verwendet werden. Damit auf 
Grundlage von PARSE konkrete Systeme entwickelt werden können, muss jedoch ein Zugang 
zu Informationen über die Anwendungsdomäne erfolgen. Hierzu bietet PARSE die Möglichkeit, 
über Luma externe Ressourcen zu laden und zu verwalten. Die Art und Form der Ressourcen wird 
nicht eingeschränkt. Somit können beispielsweise beliebige Wissensdatenbanken oder lexikalische 
Datenbanken geladen werden (siehe [Abschnitt 2.3.15). 
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Zur Repräsentation der Anwendungsdomäne bietet PARSE die Möglichkeit Ontologien zu verwen- 
den. Konkrete Systeme können sämtliches Wissen über die Anwendungsdomäne (wie beispielsweise 
die durch eine API angebotenen Funktionen) in Ontologien hinterlegen. Die Repräsentation in einer 
Ontologie stellt eine Art Schnittstelle zum Domänenwissen dar. Dadurch erhalten Agenten und 
Fließbandstufen Zugriff auf Informationen über die Anwendungsdomäne, ohne dass Domänenwissen 
in die Entwicklung der Sprachanalysen einfließen muss. Diese Trennung sorgt dafür, dass auch 
konkrete Systeme, die auf PARSE basieren, einfach an neue Anwendungsdomänen adaptiert 
werden können. Im Idealfall müssen zur Adaption lediglich die Nachverarbeitungsstufen und die 
Domänenrepräsentation angepasst werden. Das Konzept der Trennung von sprachlichen Analysen 
und der Anwendungsdomäne, sowie der Repräsentation von Domänenwissen in einer Ontologie, 
entstammt der Arbeit von Landhäußer et al. [LWT17b]. 


4.2.1 Architekturübersicht 


Wie zuvor erläutert, besteht die Architektur PARSE aus drei Bestandteilen: einem sequenziellen 
Vorverarbeitungsfließband, der Einheit zur Analyse der Semantik, die unabhängige Agenten parallel 
und wiederholt ausführt, und einem weiteren Fließband zur Nachverarbeitung der Analyseergebnisse. 
In den folgenden Abschnitten werden die Funktionsweisen der einzelnen Bestandteile präzisiert. 
Zuletzt wird erläutert, wie die Rahmenarchitektur Luna die einzelnen Bestandteile nacheinander 
zur Ausführung bringt. Innerhalb von PARSE tauschen sowohl Fließbandstufen als auch Agenten 
Analyseergebnisse über geteilte Datenstrukturen aus. Im nächsten Abschnitt werden daher zunächst 
die zugrundeliegenden Datenmodelle vorgestellt. 


4.2.2 Datenmodelle 


Die Module (Fließbandstufen und Agenten) sollen in PARSE möglichst unabhängig voneinander 
agieren. Daher ist keine direkte Kommunikation zwischen den Modulen vorgesehen; ein Austausch 
von Informationen soll ausschließlich anhand von geteilten Datenstrukturen erfolgen. Dementspre- 
chend muss für die Fließbänder und die Einheit zur Analyse der Semantik jeweils ein Datenmodell 


definiert werden. 


Die Fließbänder dienen zur Verarbeitung der Eingabe und zur Erzeugung der Ausgabe. Damit sind 
sie stark vom konkreten Anwendungsfall des jeweiligen Systems abhängig und können (im Gegensatz 
zu Agenten) größtenteils nicht wiederverwendet werden. Daher ist es auch nicht nötig, Vorgaben 
für das in den Fließbandstufen zu nutzende Datenmodell zu machen. Die Rahmenarchitektur stellt 
dementsprechend lediglich sicher, dass ein Datenobjekt von einer Fließbandstufe zur nächsten 
weitergereicht wird. Der Inhalt der Datenstruktur wird bis auf eine Ausnahme nicht vorgegeben. 
Diese Ausnahme ist das Datenmodell, welches die Agenten verwenden (siehe Abschnitt 4.2.2.2). 
Eine Instanz dieses Datenmodells müssen alle Datenstrukturen der Fließbandstufen aufnehmen 


können. Dies ist erforderlich, da die Rahmenarchitektur erwartet, dass das Ergebnis des Vorverarbei- 
tungsfließbands in dieses Modell überführt wird. Gleichermaßen wird das Ergebnis der semantischen 
Analyse durch die Agenten dem Nachverarbeitungsfließband in Form dieses Modells übergeben. 
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Für die Einheit zur Analyse der Semantik ist hingegen die Vorgabe eines Datenmodells sinnvoll, 
schließlich sollen die Agenten innerhalb der EAS nicht nur völlig unabhängig voneinander agieren 
können, sie sollen möglichst auch unabhängig von der konkreten Anwendungsdomäne allgemein- 
gültig Sprache semantisch analysieren können. Daher wird für die Agenten ein gemeinsames 
Datenmodell vorgegeben, über das die Agenten miteinander (implizit) kommunizieren können. 


Das zu verwendende Datenmodell muss bestimmte Kriterien erfüllen, damit es im Kontext von 
PARSE eingesetzt werden kann. Diese werden nachfolgend gemeinsam mit potenziellen Modellen 
(bzw. Modelltypen) diskutiert, bevor das in PARSE verwendete Datenmodell erläutert wird. 


4.2.2.1 Potenzielle Datenmodelle für die Einheit zur Analyse der Semantik 


Innerhalb der EAS soll die Semantik einer natürlichsprachlichen Sequenz analysiert werden. Das 
bedeutet, ein geeignetes Datenmodell muss natürliche Sprache repräsentieren können und die 
Agenten befähigen, Analysen auf einer Instanz des Modells durchzuführen und Analyseergebnisse 
einzupflegen. 


Aus der in |Abschnitt 1.2) formulierten Zieldefinition sowie den in |Abschnitt 4.1, aufgestellten 
Design-Prinzipien für PARSE werden die folgenden Anforderungen an ein Datenmodell abgeleitet: 


(Aı) Repräsentation natürlicher Sprache: Das Datenmodell muss es ermöglichen, natürlichsprach- 
liche Sequenzen zu repräsentieren. Das bedeutet, die einzelnen Token einer Äußerung müssen 


dargestellt werden können (siehe [Abschnitt 2.3.4.1). Dabei muss die Ordnung der Sequenz 


erhalten bleiben bzw. repräsentiert werden können. 


(Ag) Repräsentation linguistischer Relationen: Das Datenmodell muss es ermöglichen, syntaktische 
Einheiten (z. B. Wortsequenzen) zu bilden. Linguistische Relationen zwischen den Einheiten 
müssen dargestellt werden können. Zusätzlich muss es möglich sein, Abstraktionen zu bilden 
und diese in Relation zu den Einheiten zu setzen (z. B. zur Bildung von Ober-Unterbegriff- 
Beziehungen (Hyperonymie)). Dementsprechend muss das Datenmodell auch die Darstellung 
hierarchischer Relationen ermöglichen. 


(A3) Repräsentation verteilter Informationen: Die in (Aa) beschriebenen Einheiten müssen nicht 
zusammenhängend sein; syntaktische oder semantische Einheiten können auch von Wörtern 
gebildet werden, die in der Sequenz nicht aufeinander folgen. Zusätzlich gibt es in der 
Computerlinguistik Relationen, die zwischen Einheiten gebildet werden, die (potenziell) 


weit entfernt sind (z. B. Korreferenzen, siehe Abschnitt 2.3.4.7). Das Datenmodell muss 


dementsprechend eine effiziente Darstellung verteilter (und potenziell innerhalb der Sequenz 
weit entfernter) Informationen ermöglichen. 


(A4) Repräsentation externer Informationen: In die Analyse der Semantik natürlichsprachlicher 
Sequenzen sollen gegebenenfalls auch Informationen aus externen Datenquellen einfließen 
(wie z. B. Wikipedia oder WordNet, siehe|Abschnitt 2.3.15). Auch diese Art von Informationen 
müssen mithilfe des Datenmodells dargestellt werden können. 
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(A5) Dynamisch änderbar: Die Agenten sollen die Semantik natürlichsprachlicher Sequenzen 
anhand einer Instanz des Datenmodells analysieren. Die Analyseergebnisse der Agenten 
erzeugen neue Informationen, die in das Datenmodell eingepflegt werden müssen. Das 
bedeutet, das Datenmodell muss dynamisch und mit geringem Aufwand änderbar sein. 


(Ag) Kommunikation zwischen den Agenten: Die in (A5) beschriebenen Änderungen des Daten- 
modells zur Darstellung der Analyseergebnisse dienen auch der Kommunikation zwischen 
den Agenten. Dementsprechend muss es das Datenmodell ermöglichen, jedwede Form von 
Analyseergebnis zu repräsentieren; dies können linguistische Relationen, wie in (Aa) beschrie- 
ben, aber auch von den Agenten frei gewählte Relationen bzw. Darstellungen sein. Zusätzlich 
müssen Informationen in nachvollziehbaren und einheitlichen Strukturen kodiert werden 
können, um den Austausch zwischen Agenten einfach zu gestalten. 


(Ar) Unterstützung von Multimodalität (optional): Optional sollte das Datenmodell Multimodalität 
unterstützen. Das bedeutet, auch Informationen aus anderen Eingabequellen, wie beispielswei- 
se erkannte Gesten eines Bildverarbeitungssystems, sollten dargestellt werden können. Zwar 
fordert bereits (A4) die Darstellbarkeit von Informationen aus externen Datenquellen. Diese 
basieren jedoch auf textuellen Einträgen; die hier geforderte Multimodalität erfordert die 
Darstellung gegebenenfalls nicht verbalisierbarer Konzepte. Da der Fokus von PARSE jedoch 
auf der Verarbeitung natürlicher Sprache liegt, ist diese Anforderung lediglich optional. 


Für den Vergleich unterschiedlicher Datenmodelle wird eine Liste von Kandidaten aufgestellt. 
Betrachtet werden zum einen Datenmodelle, die bereits erfolgreich zur Darstellung von natürlicher 
Sprache verwendet wurden. Hierzu zählt die Token-Etiketten-basierte Darstellung, wie sie üblicher- 


weise von Computerlinguistikfließbändern verwendet wird (siehe Abschnitt 2.3.4). Auch das zur 


Darstellung von Texten samt Meta-Informationen verwendete TE/-Format [Iv95 I’ gehort zu dieser 


Kategorie. Weitere Datenmodelle entstammen verwandten Arbeiten, wie die Idea Notation |KMO6] 
oder Kategorialgrammatiken [Ste87}[ZC05] (siehe Abschnitt 3.3). Des Weiteren werden Datenmo- 
delle betrachtet, die sich zur Repräsentation von Wissensstrukturen eignen; zu dieser Kategorie 
zählen Topic Maps und Ontologien (siehe [Abschnitt 2.3.14). Zuletzt wird mit einem Graphen 
als Datenmodell eine abstrakte Struktur betrachtet, die sich ebenfalls eignet, um Einheiten und 


Relationen zwischen diesen zu repräsentieren. Die Liste erhebt keinen Anspruch auf Vollständigkeit; 
vielmehr wurden Datenmodelle gewählt, die im Kontext der Computerlinguistik ihre Tauglichkeit 
bereits unter Beweis gestellt haben. Außerdem sind die betrachteten Modelle teilweise als Stellver- 
treter einer Gruppe zu verstehen; beispielsweise ist TEZ ein Vertreter XML-basierter Formate und 
Kategorialgrammatiken dienen als Repräsentant Grammatik-basierter Ansätze. Nachfolgend werden 
die Modelle anhand der aufgestellten Anforderungen auf ihre Eignung für PARSE untersucht. 


Token-Etiketten 


Die Verwendung von Token in Verbindung mit Etiketten zur Darstellung linguistischer Eigenschaften 
ist ein weit verbreiter Ansatz. Durch die Verwendung von Token kann die Sequenz der Wörter 
einer natürlichsprachlichen Äußerung gemäß ihrer Reihenfolge repräsentiert werden (A1). Durch 


7 TEI- Text Encoding Initiative: https: //tei-c. org/| zuletzt besucht am 24.02.2021. 
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die Verwendung des JOB(ES)-Formats (siehe|Abschnitt 2.3.6) können auch zusammenhängende 
Einheiten in Form von aufeinanderfolgenden Token- bzw. Etikettensequenzen gebildet werden. Die 


Darstellung von Relationen gestaltet sich hingegen schwierig. Zwar können Relationen zwischen 
Token dargestellt werden, indem das Quelltoken ein Etikett erhält, welches auf das Zieltoken 
verweist; diese Darstellung ist jedoch unübersichtlich und fehleranfällig. Abstrakte Konzepte und 
Hierarchien lassen sich mit Token-Etiketten nicht oder nur mit hoher Redundanz repräsentieren; zur 
Darstellung einer Baumstruktur muss beispielsweise für jede Baumebene ein Etikett je überspannten 
Token erzeugt werden (Aa). Auch verteilte Informationen lassen sich aus ebendiesen Gründen nur 
unzureichend repräsentieren (A 3). Externe Informationen können in Etiketten hinterlegt werden. Soll 
hingegen ein externes Konzept mit einer Menge von Token in Verbindung gebracht werden, ergeben 
sich die bereits diskutierten Schwierigkeiten (Ay). Die dynamische Anderbarkeit der Darstellung ist 
hingegen einfach; Etiketten können geändert, hinzugefügt, gelöscht werden (As). Durch die bereits 
diskutierten Einschränkungen bei der Darstellung von Relationen sind Token-Etiketten trotzdem nur 
bedingt geeignet, um Analyseergebnisse zu hinterlegen und damit die Kommunikation zwischen den 
Agenten zu ermöglichen (Ag). Auch Multimodalität ist nur schwer umzusetzen, da Token-Etiketten 
den Fokus auf Wörter als informationstragende Einheit legen (A7). 


TEI 


Das TEI-Format basiert auf XML und bietet die Möglichkeit, Text mit hierarchisch organisierten 


(Meta-)Informationen anzureichern. |Abbildung 4.2|zeigt zwei Beispielsätze, dargestellt im TEI- 


Format. Zwar wird das TEI-Format normalerweise zur Auszeichnung (engl. mark up) von Sätzen 
oder Paragraphen verwendet, eine Unterteilung pro Wort ist aber prinzipiell möglich; das Format ist 
zudem reihenfolgeerhaltend (A1). Linguistische Relationen - insbesondere hierarchische - lassen sich 
im TEI-Format repräsentieren (A2). Die Darstellung verteilter Informationen ist hingegen (ähnlich 
wie bei Token-Etiketten) nur über Verweise auf eine andere Struktur möglich; bei einer großen 
Anzahl an Verweisen ergeben sich die im vorangegangen Paragraphen diskutierten Schwierigkeiten 
(A3). Externe Informationen können einfach hinzugefügt werden; die Auszeichnungen des TEI- 
Formats sind eben dafür gedacht (A4). Da TEI auf XML beruht, sind die aufgebauten Strukturen 
jederzeit änderbar (A5). Zur Kommunikation zwischen den Agenten ist das TE/-Format trotzdem 
nur bedingt geeignet; durch den starken Fokus auf hierarchische Strukturen, können nicht alle Arten 
von Relationen und damit auch nicht beliebige Analyseergebnisse dargestellt werden (Ag). Auch 
das Einpflegen multimodaler Eingaben ist nur umständlich möglich (z. B. durch die Erstellung 
einer entsprechenden Auszeichnung), da der Fokus des TE/-Formats stark auf der Modellierung 
verbalisierbarer Informationen liegt (A7). 


Idea Notation 


Der Zweck der Idea Notation ist die Modellierung von Konzepten, die in einer natürlichsprachlichen 
Äußerung auftreten. Somit bildet die Idea Notation eine Art Ontologie für den Gegenstandsbereich 
einer Äußerung. [Abbildung 4.3|zeigt eine beispielhaftes konkretes Modell aus Originalveröffentli- 
chung von Knoll und Mezini [KM06]. Bei der Erstellung der Konzepte und Relationen zwischen den 


Konzepten spielt die Reihenfolge der Wörter in der Sequenz keine Rolle und kann auch nicht darge- 
stellt werden. Dadurch eignet sich die Idea Notation nicht zur Darstellung einer Tokensequenz (A1). 
Die Darstellung von (linguistischen) Relationen ist hingegen der hauptsächliche Anwendungszweck 
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<?xml version="1.0" encoding="UTF-8"7> 
<TEI xmlns="http://www.tei-c.org/ns/1.0"> 
<teiHeader> 
<fileDesc> 
<titleStmt> 
<title> 
Quote by Noam Chomsky 
</title> 
</titleStmt> 
</fileDesc> 
</teiHeader> 
<text> 
<body> 
<p> 
<s> 
<w>Language</w><w>is</w><w>a</w> 
<w>process</w><w>of</w> 
<w>free</w><w>creation</w><w>;</w> 
</s> 
<s> 
<cl> 
its laws and principles are fixed, 
</cl> 
<cl> 
but the manner in which the principles of 
generation are used is free and infinitely varied. 
</cl> 
</s> 
</p> 
</body> 
</text> 
</TEI> 


Abbildung 4.2: Zwei Sätze (Etikette <s>) eines Zitats von Noam Chomsky im TE/-Format: Der erste Satz wurde 
wortweise (Etikette <w>) und der zweite phrasenweise (Etikette <cl>) unterteilt. 


(Ag). Das gilt auch für verteilte Informationen und weite Relationen; Konzepte können unabhängig 
von der ursprünglichen Tokensequenz in Verbindung gebracht werden (A3). Da die Idea Notation 
primär zur Repräsentation von Konzepten, die in einer natürlichsprachlichen Äußerung auftreten, 
konzipiert wurde, können Informationen aus externen Quellen nicht ohne Weiteres dargestellt 
werden. Prinzipiell könnten für diese aber Konzepte und Relationen angelegt werden (A4). Die Idea 
Notation ist änderbar; Konzepte und Relationen können beliebig hinzugefügt, geändert oder entfernt 
werden (As). Durch die einfache Anderbarkeit und die umfangreichen Darstellungsmöglichkeiten 
für Relationen eignet sie sich auch zur Kommunikation von Analyseergebnissen (Ag). Auch Mul- 
timodalität ist prinzipiell möglich; hierzu könnten — wie zur Darstellung von Informationen aus 
externen Quellen — entsprechende Konzepte und Relationen angelegt werden (A7). 
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Abbildung 4.3: Eine konkrete Instanz der Idea Notation, wie von Knoll und Mezini vorgeschlagen [KM06|]. 


What states border Texas 
(S/(S\NP))/N N (S\NP)/NP NP 
Af Ag. Ax. f(x) A g(x) Ax.state(x) Ax.Ay.borders(y,x) texas 
on = — 
SJ (S\N P) (S\NP) 
Ag.Ax.state(x) A g(x) Ay.borders(y, texas) 
ee a SEERESE WERNER EREREEE RER: > 
S 


Ax.state(x) A borders(x, texas) 


Abbildung 4.4: Vollständige semantische Ableitung eines Beispielsatzes mithilfe von Kategorialgrammatiken zcos]. 


Kategorialgrammatiken 


Kategorialgrammatiken ermöglichen es, natürlichsprachliche Sequenzen (üblicherweise Sätze) 
semantisch zu zerteilen. Sie ähneln den Grammatiken, die zur syntaktischen Zerteilung verwendet 
werden (siehe [Abschnitt 2.3.4.6); allerdings unterteilen sie die Eingabe in semantische anstelle 
syntaktischer Kategorien. [Abbildung 4.4] zeigt einen Beispielsatz der mithilfe einer Kategorial- 
grammatik semantische zerteilt wurde. Die Grundlage für die semantischen Zerteilungen bilden 


Tokensequenzen (A1). Die semantischen Kategorien, die von Kategorialgrammatikzerteilern verge- 
ben werden, umfassen unter anderem auch linguistische Relationen, insbesondere hierarchische 
(A2). Die Repräsentation externer (durch die Grammatik nicht vorgesehener) Informationen ist 
hingegen nicht möglich (A3). Verteilte Informationen werden durch die semantischen Zerteilungen 
umfassend erfasst; allerdings sind hierzu teils komplexe Zerteilungen notwendig, die wiederum 
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schwierig zu interpretieren sind (A4). Eine Änderung einer einmal erzeugten Zerteilung ist - ähnlich 
wie bei syntaktischen Zerteilern — nicht vorgesehen (As). Dadurch sind Kategorialgrammatiken auch 
ungeeignet, um Analyseergebnisse der Agenten zu kommunizieren (Ag). Da es nicht möglich ist, 
externe Informationen in die Zerteilungen einfließen zu lassen, ist die Umsetzung von Multimodalität 
mit Kategorialgrammatiken ebenfalls nicht möglich (A7). 


Topic Maps 


Der Fokus von Topic Maps liegt vorrangig auf der Formalisierung von Konzeptwissen. Daher ist 
die Darstellung einer Tokensequenz nicht ohne Weiteres möglich. Es wäre zwar denkbar, je Token 
ein sogenanntes Vorkommen (engl. occurence) zu einem Thema (engl. topic) zu definieren, die 
Reihenfolge der Token ließe sich dann aber nur aufwendig darstellen (A1). Linguistische Relationen 
lassen sich in Topic Maps hingegen darstellen, indem Relationen zwischen Themen aufgestellt werden. 
Allerdings können Relationen ausschließlich zwischen Themen und nicht zwischen Vorkommen 
(oder zwischen Vorkommen und Themen) gebildet werden, was die Eignung zur Repräsentation 
linguistischer Relationen einschränkt (Az). Die Repräsentation verteilter Informationen gelingt 
hingegen einfach, da Themen direkt über Relationen miteinander verbunden werden können (A3). 
Externe Informationen können ebenso eingepflegt werden, sofern ein entsprechendes Thema gebildet 
werden kann (A4). Topic Maps lassen sich anpassen: Konzepte, Auftreten und Relationen können 
jederzeit hinzugefügt, geändert oder gelöscht werden (A5). Da die Bildung von Relationen nur 
beschränkt möglich ist, eignen sich Topic Maps auch nur bedingt zum Austausch von Informationen 
zwischen Agenten; gegebenenfalls können Analyseergebnisse nur verlustbehaftet weitergegeben 
werden (Ag). Eine multimodale Verwendung von Topic Maps ist hingegen gut möglich, sofern sich 
die Eingabe als Thema darstellen lässt (A7). 


Ontologien 


Wie bei Topic Maps liegt der Fokus von Ontologien auf der Darstellung von Konzeptwissen. Die 
Darstellung natürlicher Sprache als Tokensequenz ist nicht vorgesehen. Trotzdem können Ontologien 
verwendet werden, um einzelne Wörter zu repräsentieren, beispielsweise als Individuen oder Klassen. 
Ähnlich wie bei Topic Maps ist jedoch die Erhaltung der Reihenfolge problematisch (A1). Relationen 
aller Art sind hingegen mit Ontologien darstellbar; dabei spielt es auch keine Rolle, ob es sich um 
hierarchische oder verteilte Informationen oder solche aus externen Quellen handelt (Aa - Ay] 
Die in einem Datenformat wie OWL (siehe Abschnitt 2.3.14) kodierten Konzepte, Individuen, 
Relationen etc. können zur Laufzeit geändert werden (As). Dementsprechend eignen sich Ontologien 


auch vollumfänglich zur Darstellung beliebiger Analyseergebnisse der Agenten (Ag). Multimodale 
Eingaben ließen sich ebenfalls (beispielsweise durch die Einführung zusätzlicher Konzepte und 
Relationen) repräsentieren (A7). 


Graphen 


Graphen können als Datenmodell universell zur Repräsentation beliebiger Informationen eingesetzt 
werden. Nichtsdestotrotz erscheint eine Verwendung zur Darstellung von natürlicher Sprache 


® Letztlich könnte auch die Reihenfolge der Token mithilfe von Relationen dargestellt werden. Gegenüber anderen 


Darstellungsformen ist diese aber vergleichsweise aufwendig. 
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zunächst ähnlich unintuitiv wie bei Topic Maps und Ontologien. Tatsächlich werden Graphen in 
der Computerlinguistik häufig zur Darstellung komplexer Zusammenhänge eingesetzt | Graphen 
bieten unter anderem die Möglichkeit, Token in Knoten zu repräsentieren; mittels gerichteter 
Kanten können diese zudem in eine Reihenfolge gebracht werden (A1). Beliebige linguistische 
Relationen zwischen Token können durch Hinzunahme weiterer (gerichteter) Kanten dargestellt 
werden. Sollen hierarchische Informationen repräsentiert werden, können zusätzliche Knoten 
eingeführt werden, die abstrakte Konzepte repräsentieren (A2). Auch die Darstellung verteilter 
oder weit entfernter Relationen stellt kein Problem dar; hierzu werden die entsprechenden Knoten, 
die syntaktische oder semantische Einheiten repräsentieren, durch Kanten verbunden (A3). Die 
Darstellung von Informationen aus externen Quellen gelingt ebenfalls mithilfe geeigneter Knoten- 
Kanten-Kombinationen (A4). Damit ist auch Multimodalität einfach umsetzbar (A7). Graphen können 
verändert werden (sofern dies durch die verwendete Rahmenarchitektur unterstützt wird); Knoten und 
Kanten können hinzugefügt und entfernt werden (A5). Durch die flexiblen Darstellungsmöglichkeiten 
sind Graphen auch zur Darstellung beliebiger Analyseergebnisse der Agenten und damit zur 
Kommunikation zwischen diesen geeignet (Ag). 


Tabelle 4.1 fasst die gesammelten Erkenntnisse über die potenziellen Darstellungsformen zusammen. 


Wie der Tabelle entnommen werden kann, erfüllt lediglich eine Graph-basierte Darstellung die 
zu Beginn des Abschnitts definierten Anforderungen an ein Datenmodell vollumfänglich. Zwar 
stellen auch Ontologien und Topic Maps gute Alternativen dar; letztlich sind beide aber auch 
nur spezialisierte Graph-Modelle, die syntaktische bzw. semantische Einschränkungen bei der 
Darstellung des zu modellierenden Wissens machen. Der Grund hierfür ist, dass beide den Fokus 
auf die Repräsentation von Konzeptwissen legen; zur Darstellung einer natürlichsprachlichen 
(Token-)Sequenz, müssten sie auf eine nicht vorgesehene Weise verwendet werden. Daher wird in 
PARSE ein Graph als zentrales Datenmodell während der semantischen Analyse durch die Agenten 


verwendet. Nachfolgend werden die Eigenschaften des verwendeten Graphmodells erläutert. 


4.2.2.2 PARSE-Graphen 


Das für PARSE entworfene Graphmodell entspricht einem typisierten, gerichteten Multigraphen. 
Das bedeutet, der Graph G besteht aus Knoten (engl. vertices) V und Kanten (engl. edges) E. Die 
Kanten sind gerichtet, haben also eine Orientierung: Kanten verbinden immer eine Quelle mit 
einer Senke (beides Knoten). Dabei ist es im PARSE-Graphen möglich, dass die Quelle und die 
Senke identisch sind (reflexive Kante). Ebenso kann ein Knotenpaar über unterschiedliche Kanten 
miteinander verbunden werden (Multigraph). PARSE-Graphen können zudem Zyklen enthalten. 


Sowohl Knoten als auch Kanten sind typisiert. Typen können wiederum benannte, typisierte Attribute 
zugewiesen werden. Die Attributtypen sind nicht eingeschränkt, es können sowohl primitive als 
auch nicht-primitive Datentypen verwendet werden. In konkreten Knoten können den Attributen 
dann Werte hinzugefügt werden. 


? Beispielsweise erzeugen sowohl Konstituenz- als auch Dependenzzerteiler Graph-basierte Darstellungen der 


Satzsyntax (siehe Abschnitt 2.3.4.6). Ein weiteres Beispiel für die Verwendung von Graphen ist die Korreferenzanalyse 


(siehe Abschnitt 2.3.4.7). 
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Tabelle 4.1: Vergleich unterschiedlicher Datenmodelle, die zur Verwendung innerhalb der Einheit zur Analyse der 
Semantik innerhalb von PARSE infrage kommen: Die Datenmodelle werden anhand der zu Beginn von Abschnitt 4.2.2.1 
gestellten Anforderungen verglichen. Ein ausgefüllter Kreis symbolisiert (°) eine vollumpfängliche Erfüllung der 
Anforderungen und leere Kreise (0) die teilweise Erfüllung. Ist kein Symbol angegeben, kann das Datenmodell die 
entsprechende Anforderung nicht erfüllen. 


5 a 
5 E 3 5 
© 3 Q 5 = 
2 ° =, 
S S = Z g g 6 
S 2 g S g 2 2< 
= & oa aE g£ z- pa 
Oo 4 Ow O oO oO = D Q of S> 
zn 30 23% 2 © 3 oD ==) 
Su S oS g S SH a “<< > 
> D > 0 we m eo O = Nr 
Sc a a S u g Aw S s = 6 
oO oo D D oO H aa 5 0 3 
Qos an a 2 a L £ o es 7 g 
ws m woe is = R 8 = O ae | 
SH oS uO a B So Sa ox 
SS Gh pE 88 5% SF 8B 
Ki BE ~S ES: AS MER DE 
e S a G = Ss = 
"i 
Repräsentationsart = E © 3 = = = 
Token-Etiketten e o o o ° o 
TEI ° s o ° e o o 
Idea Notation o ° o ° e a 
Kategorialgrammatiken ° e ° o 
Topic Maps o o ° ° ° © 5 
Ontologien o ° ° . ° ° . 
Graphen ° ° ° . ° e . 


In diesem Beispiel soll die Erzeugung von zwei Knoten und einer Kante zwischen diesen 


demonstriert werden. Das Beispiel nimmt Bezug auf den in [Abbildung 4.5| dargestellten 


Graphen. 
Erläuterung 


Um den in der Abbildung gezeigten Graphen zu erhalten, wird zunächst ein Knotentyp VTypei 
erzeugt (falls dieser noch nicht vorhanden ist). Der Knotentyp erhält zwei Attribute, pos 
und val; das erste ist vom Typ int das zweite vom Typ String. Anschließend wird der 
Knoten V1 erzeugt und als Typ VType1i festgelegt. Den Attributen im Knoten können nun 
Werte zugewiesen werden; alternativ kann die Wertzuweisung zu jedem späteren Zeitpunkt 


geschehen. Der Knoten V2 wird analog dazu angelegt und ist ebenfalls vom Typ VType1i. 


Auch bei der Erstellung der Kante muss zunächst ein Kantentyp (im Beispiel EType1) erzeugt 
werden (sofern dieser noch nicht vorhanden ist). Bei der Erzeugung der Kante werden zudem 
die Quelle und die Senke angegeben, im Beispiel V1 und V2. 
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VTypei E1 <ETypel> ol=-==-=: i EType1 ' 
‘int pos | rel = Relation. NEXT 'Relation rel | 
String val confidence = 0.785f ' float confidence | 


\ | 


Abbildung 4.5: Ein beispielhafter PARSE-Graph, bestehend aus zwei Knoten und einer Kante zwischen diesen. 


Knoten und Kanten können gelöscht werden. Ebenso können Kanten umgelegt werden; das 
bedeutet, sowohl die Quelle als auch die Senke können nachträglich angepasst werden. Knoten- und 
Kantentypen können hingegen nicht gelöscht werden. Auch die typisierten Attribute eines Knoten- 
oder Kantentypen können nicht entfernt werden; das nachträgliche Hinzufügen weiterer Attribute ist 
hingegen möglich. Die Werte der Attribute können jederzeit geändert werden. Die Rahmenarchitektur 
ermöglicht es, Knoten, die über keine Kante mit einem anderen Knoten verbunden sind, automatisch 
aus dem Graphen zu entfernen. Da dieses Verhalten aber zu unerwünschten Ergebnissen führen kann, 
ist es möglich, diese Funktion nicht zu verwenden] Weiterhin erlaubt die Rahmenarchitektur die 
Erzeugung mehrerer PARSE-Graphen; diese Möglichkeit kann beispielsweise genutzt werden, um 
parallel Alternativhypothesen zu verarbeiten, die durch ein automatisches Spracherkennungssystem 


erzeugt wurden (siehe Abschnitt 2.3.7). 


PARSE bietet darüber hinaus die Möglichkeit tiefe Kopien (engl. deep copy) eines Graphen 
zu erzeugen; das bedeutet, es werden nicht nur Knoten und Kanten kloniert, sondern auch die 
zugehörigen Knoten- und Kantentypen sowie die Attribute (sofern die Typen der Attribute Klonierung 
unterstützen). Es kann auch geprüft werden, ob ein PARSE-Graph inhaltlich äquivalent zu einem 
anderen ist. Geklonte Graphen sind beispielsweise äquivalent (obwohl durch die Klonierung keine 
Objektgleichheit herrscht). Wird jedoch beispielsweise ein Attributwert geändert, sind die Graphen 
nicht mehr äquivalent, obwohl weiterhin alle Knoten und Kanten übereinstimmen. Die Möglichkeit 
tiefe Kopien zu erstellen und Äquivalenzprüfung sind eine wesentliche Voraussetzung für die 
nebenläufige Verwendung der PARSE-Graphen durch die Agenten! (siehe|Abschnitt 4.2.4). 


4.2.3 Vor- und Nachverarbeitungsfließbänder 


Die Architektur PARSE ist so entworfen, dass vor und nach der semantischen Analyse durch die 
Agenten Fließbänder zur Verarbeitung natürlichsprachlicher Sequenzen eingesetzt werden (siehe 
Abschnitt 4.2.1). Das Vorverarbeitungsfließband dient dazu, die Eingabe (z. B. ein Audiosignal) 


In der Standardkonfiguration von PARSE wird die Funktion nicht verwendet. 

Die Agenten erhalten zur Durchführung ihrer Analysen eine tiefe Kopie des aktuellen Graphen. Analyseergebnisse 
eines Agenten werden später nur übernommen, wenn der Agent selbst Änderungen am Graphen durchgeführt hat und 
in der Zwischenzeit kein anderer Agent den (Haupt-)Graph (durch Zurückschreiben der eigenen Kopie) verändert hat. 
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entgegenzunehmen und soweit vorzubereiten, dass eine Analyse der Semantik dieser durch die 
Agenten möglich wird. Das Nachverarbeitungsfließband nimmt das Analyseergebnis der Agenten 
entgegen und erzeugt daraus eine Ausgabe (z. B. Quelltext). Die in PARSE verwendeten Fließbänder 
entsprechen einer klassischen nicht-parallelen Fließband-Architektur (engl. pipeline architecture). 
Das heißt es wird immer das vollständige Eingabedatum (und etwaige hinzugefügte Informationen) 
von einer Fließbandstufe zur nächsten weitergereicht und die Stufen werden nacheinander, nicht 
nebenläufig ausgeführt. Die Fließbandstufen sind als Einschübe umgesetzt. Dadurch können für 
ein konkretes System, das auf PARSE basiert, beliebige Fließbandstufen implementiert und durch 
die Rahmenarchitektur geladen werden (siehe[Abschnitt 4.2.5). Die Einschiibe müssen gemäß der 
durch PARSE vorgegebenen Schnittstelle drei Funktionen umsetzen. 


Die erste Funktion dient der Initialisierung der Fließbandstufe (init-Methode). Diese wird von der 
Rahmenarchitektur einmalig nach der Erzeugung des Fließbandstufenobjekts aufgerufen und kann 
beispielsweise dazu genutzt werden, Ressourcen zu laden. Die zweite Funktion enthält die eigentliche 
Funktionalität der Fließbandstufe (exec-Methode). Diese wird von der Rahmenarchitektur zur 
Ausführung der Stufe im Fließband aufgerufen. Beim Aufruf wird der Stufe das geteilte Datenobjekt 
übergeben. Jede Fließbandstufe legt ihre Analyseergebnisse in ebendiesem ab, bevor es an die 
nächste Stufe weitergereicht wird. Die dritte Funktion sorgt dafür, dass jede Fließbandstufe 
einen eindeutigen Namen erhält (getID-Methode). Für jede Fließbandstufe muss eine ID gewählt 
werden, welche über die Funktion zurückgegeben wird. Die Benennung der Fließbandstufen 
ist nötig, da die Rahmenarchitektur unter allen verfügbaren Stufen anhand des Namens die 
auszuführenden auswählt (siehe [Abschnitt 4.2.5). Darüber hinaus macht PARSE keine Vorgaben 
über die Interna der Fließbandstufen. Allerdings gibt es durch die Verwendung des PARSE- 
Graphen als Datenmodell für die Einheit zur Analyse der Semantik Vorgaben für die letzte Stufe 


des Vorverarbeitungsfließbandes und die erste Stufe des Nachverarbeitungsfließbandes. Die letzte 
Stufe des Vorverarbeitungsfließbandes muss die Analyseergebnisse der vorangegangen Stufen in 
einem PARSE-Graphen zusammenfassen und diesen im geteilten Datenobjekt hinterlegen] Die 
erste Stufe des Nachverarbeitungsfließbandes muss entsprechend in der Lage sein, den durch die 
Agenten veränderten Graphen zu verarbeiten. 


4.2.4 Einheit zur Analyse der Semantik 


Die Einheit zur Analyse der Semantik EAS bildet die Kernkomponente von PARSE. Innerhalb 
der EAS werden die Agenten für tiefes Sprachverständnis ausgeführt. Sie sind dafür zuständig die 
Semantik natürlichsprachlicher Sequenzen zu analysieren. Durch das Zusammenspiel verschiede- 
ner Agenten soll ein möglichst tiefes Verständnis natürlicher Sprache entstehen. Die technische 
Umsetzung der Agenten in PARSE wird nachfolgend erläutert. Die Agenten agieren ebenfalls als 
Einschübe mit den denselben Schnittstellenfunktionen wie die Fließbandstufen (siehe Abschnitt 4.2.3 
und[Abschnitt 4.2.5). Allerdings werden die Agenten von der Rahmenarchitektur nebenläufig und 
wiederholt zur Ausführung gebracht. Das bedeutet, Luna ruft die exec-Methoden aller Agenten 


12 In Prof% wird hierfür eine dedizierte Stufe zur Erzeugung eines Graphen verwendet (siehe|Abschnitt 6.5). Alternativ 
könnte die letzte Stufe aber auch noch eigene Analysen durchführen und dann den Graphen erzeugen. 
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<interface>> beobachter <interface> 
ILuna LunaObserver 


register(obs: LunaObserver) update(event: IEvent) 
unregister(obs: LunaObserver) 
notifyObservers(event: IEvent) 


AbstractLuna AbstractAgent 


graphContainer: IGraphContainer graph: IGraph 


register(obs: LunaObserver) initAbstract(iLuna: ILuna) 
unregister(obs: LunaObserver) update(event: IEvent) 
notifyObservers(event: IEvent) 

getCloneOfMainGraph(): [Graph 

updateGraph(graph: IGraph) 


subjekt 


Abbildung 4.6: UML-Klassendiagramm zur Umsetzung des Entwurfsmusters Beobachter in PARSE: LunaObserver 
entsprechen dabei Beobachtern; AbstractAgents sind die konkreten Beobachter. AbstractLuna übernimmt die Rolle des 
Subjekts und Luna die des konkreten Subjekts. 


gleichzeitig auf. Beim Aufruf erhalten die Agenten eine Kopie des aktuellen Graphen. Diese bildet 
die Grundlage der in einem konkreten Agenten umgesetzten Analysen. Ein Agent kann Knoten, 


Kanten und Attribute aus der Graphkopie auslesen und gemäß dem in Abschnitt 4.2.2.2|definierten 


Regelwerks verändern. Hat ein Agent seine Analyse abgeschlossen, legt er die Analyseergebnisse in 
der Graphkopie ab; hierzu können beispielsweise neue Attribute, Knoten oder Kanten angelegt oder 
bestehende bearbeitet werden. Zuletzt bietet der Agent seine Graphkopie der Rahmenarchitektur 
als neuen (Haupt-)Graphen an. Die Rahmenarchitektur prüft, ob die Kopie tatsächlich Änderungen 
enthält und ob nicht in der Zwischenzeit ein anderer Agent eine aktuellere Version des Graphen 
hinterlegt hat (siehe Abschnitt 4.2.5). Durch die Verwendung von privaten Kopien des Graphen 
für die Agenten und das gesteuerte Zurückschreiben durch die Rahmenarchitektur, können keine 


Wettlaufsituationen auftreten und keine Inkonsistenzen entstehen. Wurde der Graph durch einen 
Agenten verändert, wird dies allen Agenten bekannt gemacht und die exec-Methode aller Agenten 
wird erneut aufgerufen (siehe Abschnitt 4.2.5); die Agenten erhalten Kopien des neuen Graphen. 
Um die Agenten über Änderungen zu informieren, wird das Entwurfsmuster Beobachter (engl. 
observer) verwendet [Gam+94], wobei die Agenten Beobachter sind, die sich beim Subjekt, im 
Falle von PARSE die Rahmenarchitektur Luna, registrieren. Der interne, veränderliche Zustand 
des Subjekts ist der geteilte Graph, der von der Rahmenarchitektur verwaltet wird. 
veranschaulicht die Umsetzung des Beobachter-Musters in PARSE. 
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Durch die parallele und wiederholte Ausführung ergeben sich für die Umsetzung konkreter Agenten 


zwei Herausforderungen: 


1. Zum einen kann bei der Umsetzung einer Sprachanalyse in einem Agenten nicht davon 


ausgegangen werden, dass Ergebnisse anderer Agenten, die für die eigenen Analysen benötigt 
werden, zur Verfügung stehen; aufgrund der nebenläufigen Ausführung kann es vorkommen, 
dass der entsprechende (zuliefernde) Agent seine Analyseergebnisse noch nicht im Graphen 
hinterlegt hat. Agenten müssen also das Vorhandensein der benötigten Informationen eigen- 
ständig prüfen, z. B. durch Prüfung des Vorhandenseins eines speziellen Knotentyps. Falls 
notwendige Informationen im Graphen fehlen, sollte ein Agent dementsprechend seine Analy- 
se beenden und auf den nächsten Aufrufzyklus warten (siehe [Abschnitt 4.2.5). Verwendet ein 
Agent die Ergebnisse mehrerer anderer Agenten, sollte — sofern möglich - eine gestaffelte 


Prüfung durchgeführt werden. Falls nur ein Teil der benötigten Informationen vorliegt, kann 
ein Agent gegebenenfalls seine Analysen bereits teilweise durchführen und Teilergebnisse im 
Graph hinterlegen. Im nächsten Aufrufzyklus kann die Analyse dann vertieft werden, sofern 


neue Ergebnisse anderer Agenten zur Verfügung stehen. 


. Zum anderen muss bei der Umsetzung eines konkreten Agenten beachtet werden, dass die exec- 


Methode potenziell beliebig oft von der Rahmenarchitektur aufgerufen wird. Daher muss ein 
Agent prüfen, ob der Graph bereits eigene Analyseergebnisse enthält (z. B. indem geprüft wird, 
ob der Graph einen Kantentyp enthält, der vom Agenten erzeugt wird). Andernfalls Könnte 
der Agent fälschlicherweise gedoppelte (bzw. redundante) Analyseergebnisse erzeugen] Je 
nach Agenten kann ein unterschiedlicher Umgang mit diesem Umstand sinnvoll sein. Sind 
seitens des Agenten keine inkrementellen Analysen vorgesehen, genügt es, die Ausführung 
zu beenden, falls der Agent feststellt, dass bereits eigene Analyseergebnisse im Graphen 
vorhanden sind. Sieht der Agent hingegen inkrementelle Analysen vor, kann der Graph auf 
neue Informationen hin untersucht und die eigenen Analysen vertieft werden. In diesem 
Fall muss allerdings beim Einpflegen der neuen Analyseergebnisse darauf geachtet werden, 
dass keine redundanten Informationen erzeugt werden. Auch hierfür sind unterschiedliche 
Strategien denkbar. Ein Agent könnte beispielsweise alle eigenen Informationen aus einem 
vorherigen Durchlauf aus dem Graph löschen bevor die neuen Ergebnisse eingefügt werden 
oder bei jeder Einfügung einer Kante, eines Knoten usw. prüfen, ob sich das entsprechende 


Element bereits im Graphen befindet. 


PARSE macht hinsichtlich beider Prüfungen (Vorhandensein von Analyseergebnissen anderer 


Agenten und eigener Analyseergebnisse) keine Vorgaben. Der Grund hierfür ist, dass für diese 


Fälle kein generelles Vorgehen erzwungen werden soll. Je nach Agent, bzw. je nachdem welche Art 


von Analyse im Agenten umgesetzt wird, muss ein anderer Umgang mit den zuvor beschriebenen 


Herausforderungen umgesetzt werden. 


13 


Beispielsweise könnte ein Agent zur Persistierung seiner Analyseergebnisse eine neue Kante zwischen zwei bereits 
bestehenden Knoten erzeugen. Wird der Agent erneut aufgerufen und führt seine Analysen ohne Beachtung des 
Ist-Zustandes durch, würde er dieselbe Kante ein zweites Mal dem Graph hinzufügen, ohne dass diese Information 
trägt. Dies würde sich bei jedem Aufruf des Agenten wiederholen. 
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<interface>> <interface> <interface> 
IPipelineStage ILuna LunaObserver 


init() init() 
exec() AbstractLuna 


getIDQ): String 


AbstractAgent 


initAbstract() 
exec() 
getID(): String 


init() init() init() 
exec() exec() exec() 
getID(): String getIDQ): String getIDQ): String 


Abbildung 4.7: UML-Paketdiagramm, welches das Zusammenspiel zwischen der Rahmenarchitektur und den verschiede- 
nen Einschiiben veranschaulicht. 


4.2.5 Rahmenarchitektur 


Die Rahmenarchitektur Luma ist dafür zuständig, die einzelnen Bestandteile zur Ausführung zu 
bringen: das Vorverarbeitungsfließband, die EAS und das Nachverarbeitungsfließband. Zusätzlich 
werden die externen Ressourcen bereitgestellt. Der Aufbau der Rahmenarchitektur und die Beziehung 
zu den Einschüben kann (ausschnitthaft) anhand des UML-Paketdiagramms in [Abbildung 4.7 
nachvollzogen werden. 


Zunächst werden alle zur Verfügung gestellten Fließbandstufen und Agenten geladen '*] Mithilfe von 
Konfigurationsdateien kann definiert werden, welche dieser zur Verfügung stehenden Stufen und 
Agenten genutzt werden sollen; die Auswahl wird anhand der getID-Methode getroffen. Für die 
Fließbänder kann zudem angegeben werden, in welcher Reihenfolge die Stufen ausgeführt werden. 


Da PARSE Einschub-basiert arbeitet, werden die Einschübe aus Jar-Containern geladen, die in einem defi- 
nierten Verzeichnis abgelegt sind. Geladen werden die konkreten Fließbandstufen und Agenten anschließend 
mithilfe der Java-ServiceLoader-Architektur anhand der durch die Rahmenarchitektur vorgegebenen Schnittstellen. 
Java-ServiceLoader: https://docs.oracle.com/en/java/javase/15/docs/api/java.base/java/util/ 
ServiceLoader.html, zuletzt besucht am 24.02.2021. 
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Algorithmus 1 Schablonenmethode der abstrakten Agenten (run-Methode, vereinfacht) 
while true do 
if event = UpdateEvent then 
graph + luna.getGraphCopy() 
exec() 
luna.updateGraph(graph) 
else if event = TerminationEvent then 
break 
else 
luna.wait() 
end if 
end while 


Anschließend wird das Vorverarbeitungsfließband erstellt und die zugehörigen Stufen werden 
mittels ihrer init-Methoden initialisiert. Zusätzlich wird das Modul geladen, das die externen 
Ressourcen bereitstellt, und das Datenobjekt für das Vorverarbeitungsfließband erzeugt. Dann 
wird das Vorverarbeitungsfließband ausgeführt, indem alle Stufen in der definierten Reihenfolge 


aufgerufen werden. Das Datenobjekt wird entsprechend von Stufe zu Stufe weitergereicht. 


Nachdem das Vorverarbeitungsfließband vollständig durchlaufen wurde, liest Luna den erzeugten 
PARSE-Graphen aus dem Datenobjekt aus. Anschließend werden die Agenten innerhalb der 
EAS initialisiert (siehe Abschnitt 4.2.4). Allerdings wird hierzu nicht direkt die init-Methode 
der Agenten aufgerufen. Stattdessen wird eine Initialisierungsfunktion der abstrakten Oberklasse 
aufgerufen (initAbstract). Der Grund hierfür ist folgender: Damit das Beobachter-Muster 
zur Signalisierung der Agenten umgesetzt werden kann (siehe [Abschnitt 4.2.4), benötigen die 
Beobachter (das heißt die Agenten) eine Referenz auf das Subjekt (hier Luna). Die konkreten 
Agenten sollen aber unabhängig von der Rahmenarchitektur entwickelt werden können und keinen 


Zugriff auf dieses besitzen. Daher wird die Referenz innerhalb der abstrakten Agenten erzeugt, 
die Teil der Rahmenarchitektur sind (siehe [Abbildung 4.6). Das bedeutet, in PARSE sind die 
konkreten Beobachter die abstrakten Agenten. Zudem wird in der Initialisierungsfunktion der 


abstrakten Oberklasse der initiale Graph hinterlegt. Die Agenten erhalten jeweils eine Kopie des 
PARSE-Graphen (siehe|Abschnitt 4.2.2.2). Zuletzt wird die eigentliche init-Methode der Agenten 
aufgerufen >] Nach der Initialisierung wird für jeden Agenten ein Ausführungsfaden (engl. thread) 
erzeugt. Die Fäden werden anschließend nebenläufig zur Ausführung gebracht; hierzu wird die run- 
Methode der abstrakten Agenten aufgerufen]'°] Die run-Methode fungiert als Schablonenmethode 
mit der exec-Methode als einzigem Einschub. Innerhalb der Schablonenmethode ist folgender 
Ausführungszyklus, wie in veranschaulicht, für abstrakte Agenten definiert: In 
einer Endlosschleife wird das aktuell durch die Rahmenarchitektur versendete Signal geprüft. 


Luna verwendet die Events Aktualisierung und Terminierung zur Signalisierung der Agenten. 
Wird das Event Terminierung übermittelt, beenden die Agenten ihre Ausführung. Das Event 


15 Innerhalb des abstrakten Agenten wird die init-Methode der implementierten Schnittstelle aufgerufen. Durch die 


dynamische Bindung entspricht dies zur Laufzeit der init-Methode des jeweiligen konkreten Agenten. 
Da die abstrakten Agenten in separaten Fäden ausgeführt werden sollen, implementieren sie die Java-Schnittstelle 
Runnable. 
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Aktualisierung macht den Agenten hingegen bekannt, dass eine neue Version des Graphen vorliegt 
und dementsprechend eine (erneute) Durchführung der Analysen angestoßen werden sollte!” Die 
Schablonenmethode sieht in diesem Fall vor, dass zunächst eine aktuelle Kopie des Graphen von der 
Rahmenarchitektur angefordert wird. Anschließend wird die Einschubmethode exec aufgerufen; 
der konkrete Agent führt nun seine Sprachanalysen durch und hinterlegt die Ergebnisse in seiner 
Graphkopie. Ist die Ausführung der exec-Methode durch den konkreten Agenten beendet, wird in 
der Schablonenmethode die updateGraph-Methode der Rahmenarchitektur aufgerufen und die 
Graphkopie des Agenten übergeben. Der Agent bietet also der Rahmenarchitektur seine private 
Graphkopie als neuen (Haupt-)Graphen an. Die Rahmenarchitektur Luna prüft, ob der Agent der erste 
ist, der einen neuen Graphen zurückschreiben will'8] Ist dies der Fall, wird der vom Agenten erzeugte 
Graph als aktueller Graph in Luna hinterlegt. Andernfalls wird das Zurückschreiben abgelehnt. 
Das bedeutet, je Ausführungszyklus kann nur ein Agent seine Analyseergebnisse tatsächlich im 
Graph hinterlegen] Nach einer Änderung des Graphen werden alle Beobachter, sprich die Agenten, 
informiert, das Event Aktualisierung wird übermittelt. Die Rahmenarchitektur macht keine Vorgaben, 
wann eine Terminierung der Agenten stattfinden soll. Allerdings werden Schnittstellen für sogenannte 
Funktionswächter-Agenten (engl. watchdog agents) angeboten. Konkrete Funktionswächter-Agenten 
sollen prüfen, wann kein Fortschritt mehr bei der Analyse der Semantik erzielt wird. Dazu kann 
beispielsweise der Graph überwacht werden] Konkrete Funktionswächter-Agenten sind kein 
Bestandteil von PARSE, sondern müssen separat entwickelt werden. PARSE sieht jedoch vor, 
dass Funktionswächter-Agenten spezielle Knoten im Graphen hinterlegen. Luna prüft vor jeder 
Änderungsbenachrichtigung an die Agenten, ob ein solcher Knoten im Graph hinterlegt wurde. 
Ist dies der Fall, wird den Agenten ein Terminierungs-Event übermittelt. Durch die Auslagerung 
der Prüfung von Terminierungsbedingungen in Funktionswächter-Agenten können jederzeit neue 
Bedingungen durch die Entwicklung neuer Agenten hinzugefügt werden. Außerdem sind die 
Bedingungen dadurch nicht bereits Architektur-seitig vorgegeben, sondern können für jedes System 
passend kombiniert werden. 


Nachdem die EAS ihre Ausführung beendet hat, wird das Datenobjekt für das Nachverarbeitung- 
fließband erzeugt und der Graph hinterlegt. Anschließend werden die einzelnen Stufen initialisiert 
und analog zum Vorverarbeitungsfließband ausgeführt. Prinzipiell sind die Stufen des Nachverarbei- 
tungsflieBbands für die Generierung eines Ergebnisses bzw. einer Ausgabe zuständig; Luna führt 
lediglich das Fließband aus und beendet anschließend die Ausführung von PARSE. 


Während der Initialisierung wird den Agenten zunächst das Event Aktualisierung signalisiert. Somit ist sichergestellt, 
dass alle Agenten zunächst mit der Ausführung ihrer jeweiligen Analysen beginnen. 

Hierzu werden zwei Prüfungen durchgeführt. Luna hinterlegt innerhalb des PARSE-Graphen, wie häufig dieser 
bereits geändert wurde. Dieser Wert muss bei dem vom Agenten angebotenen Graphen gleich dem Wert des in Luna 
hinterlegten Graphen sein. Ist dies nicht der Fall, wird der vom Agenten angebotene Graph verworfen. Da Agenten 
aber auch inhaltlich unveränderte Graphen anbieten können, wird zusätzlich überprüft, ob die Graphen äquivalent 
sind (siehe [Abschnitt 4.2.2.2). Auch in diesem Fall wird der vom Agenten angebotene Graph verworfen. 

Dadurch wird sichergestellt, dass keine Inkonsistenzen im Graph entstehen. Die Alternative, eine Zusammenführung 
mehrerer Graphen, ist hingegen nicht trivial. Durch diesen konservativen Ansatz wird die Verarbeitung innerhalb 
der EAS natürlich ineffizient. Solange die Analysen der Agenten jedoch leichtgewichtig sind und ausreichend 
Ressourcen (CPUs) verfügbar sind, fällt dies aber nicht ins Gewicht. Nichtsdestotrotz könnten zukünftig Methoden 
zur Verschmelzung der Graphen entwickelt werden und so die Effizienz gesteigert werden (siehe) Abschnitt 10.2). 
Mögliche Ausprägungen konkreter Funktionswächter-Agenten könnten beispielsweise nach Ablauf eines Zeitlimits 
die Terminierung initiieren oder falls nur zyklische Änderungen des Graphen stattfinden (siehe| Abschnitt 7.11 ). 
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5 Proy,,- Ein System zur 
Endnutzer-Programmierung mit 
gesprochener Sprache 


„Understanding is nothing else than conception caused by speech.“ 


— Thomas Hobbes 


Ein Computersystem programmieren, ohne dafiir eine Programmiersprache lernen zu miissen — 
stattdessen einfach in alltäglicher Sprache erklären, was das System tun soll. Mit Prov’, wird 
dies möglich. Pro,’ ist ein System zur Endnutzer-Programmierung mit gesprochener Sprache; es 
nimmt Eingaben in Form von natürlichsprachlichen Außerungen entgegen, analysiert die Semantik 
dieser und synthetisiert anhand der Ergebnisse Quelltext. 


Prof% entsteht auf Grundlage der Architektur PARSE; das bedeutet, es werden konkrete Agenten 
und Fließbandstufen als Einschübe (engl. plug-in) zur Ausführung durch die Rahmenarchitektur Luna 
bereitgestellt. Weiterhin werden Anbindungen an externe Ressourcen geschaffen. Einerseits erhalten 
Agenten und Fließbandstufen so Zugriff auf Wissensdatenbanken. Andererseits wird auf diese Weise 
auch die Anwendungsdomäne über den von PARSE vorgesehene Ontologie-Zugriff angebunden. Da 
Pro/, ein System zur Endnutzer-Programmierung mit gesprochener Sprache darstellt, entspricht 
die Anwendungsdomäne Anwendungsschnittstellen (engl. application programming interface, kurz 
API); gegebenenfalls können in den Ontologien zusätzlich Systemumgebungen modelliert werden. 


In den nachfolgenden Abschnitten wird zunächst die Zielbestimmung von Prog% präzisiert (Ab- 
schnitt 5.1). Anschließend wird der Forschungsansatz erläutert, welcher der Entwicklung von Prof, 
zugrunde liegt (Abschnitt 5.2). Daraufhin wird eine Übersicht über die für Proy; entwickelten 
Einzelkomponenten gegeben (Abschnitt 5.3). Die konkreten Fließbandstufen und Agenten werden 


dann in den nachfolgenden Kapiteln|6| [7Jund [8|beschrieben. Es folgt eine Erläuterung dazu, wie in 
Prof; die Anwendungsdomänen als Ontologien modelliert und somit von den Sprachanalysen 
getrennt werden (Abschnitt 5.4). Im letzten Abschnitt wird erläutert, wie mithilfe von Studien zu 
Entwicklungs- und Evaluationszwecken Datensammlungen, bestehend aus Sprachaufnahmen und 


textuellen Beschreibungen von Probanden, angelegt werden (Abschnitt 5.5). 
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5 ProNat — Ein System zur Endnutzer-Programmierung mit gesprochener Sprache 


5.1 Zielbestimmung 


Im Folgenden wird die Zielbestimmung von Pro, erläutert. Zunächst werden die in|Abschnitt 1.2 
formulierten Ziele präzisiert. Anschließende werden grundlegende Methodiken zur Umsetzung der 


Ziele erläutert. Abschließend wird diskutiert, welche Einschränkungen für die Umsetzung getroffen 
werden müssen. 


Mit Prof; soll ein System entstehen, dass Endnutzer in die Lage versetzt, Zielsysteme durch 
gesprochene Anweisungen zu programmieren. Durch die Festlegung auf Endnutzern als Zielgruppe 
muss Prof% laienhafte Beschreibungen interpretieren können. Zur Verwendung von Prof% soll 
kein Vorwissen über die Funktionsweise von Prog% oder des Zielsystems nötig sein. Außerdem 
muss Prof% in der Lage sein, alltägliche gesprochene Sprache zu verstehen. Nutzer von Pro, 
sollen ihre Anweisungen frei formulieren können; das bedeutet, Prog% soll die Sprache nicht 
beschränken. Dies schließt eine unbeschränkte Wortwahl und die Verwendung beliebiger Ausdrucks- 
formen bzw. Satzstrukturen ein! Die Beschreibungen sollen inhaltlich beliebig komplex gestaltet 
werden dürfen; das bedeutet, Nutzer können beispielsweise Rückbezüge durch Korreferenzen oder 
Konditionalsätze formulieren. Nutzern soll es zudem erlaubt sein, Beschreibungen unbeschränkter 
Länge abzugeben. Der Umgang mit vielfältiger und ausdrucksstarker Sprache ist nötig, damit Nutzer 
befähigt werden, umfangreiche Programme beschreiben zu können. Verwandte Ansätze erlauben 
lediglich die Erzeugung einzelner Anweisungen oder Aufrufe bzw. die Kombination weniger, gege- 
benenfalls in Verbindung mit einzelnen Kontrollstrukturen. Pro, soll hingegen die Erzeugung 
komplexerer Programme ermöglichen; es sollen Skripte synthetisiert werden, die aus beliebig 
vielen Anweisungen und Kontrollstrukturen bestehen. Neben bedingten Verzweigungen, sollen auch 
Schleifen und nebenläufige Abschnitte definiert und beliebig verschachtelt werden können. Prof, 
soll die Programmierung von Zielsystemen ermöglichen, die für die Endnutzer-Programmierung 
geeignet sind und eine entsprechende Anwendungsschnittstelle anbieten. Beispiele für derartige 
Systeme sind humanoide Roboter, Heimautomationssysteme oder virtuelle Assistenten. Zielsysteme 


NI 


können gegebenenfalls mit ihrer Umgebung interagieren 


; Proy,, muss es dementsprechend 


ermöglichen, Modelle von Systemumgebungen einzubeziehen. Ein Zielsystem mit einer konkreten 
Systemumgebung bildet die Anwendungsdomäne. Pro, soll möglichst Domänen-agnostisch sein; 
das bedeutet, dass bei einer Änderung der Anwendungsdomäne (das heißt, des Zielsystem, der 
Umgebung oder von beidem) möglichst wenige Änderungen am Gesamtsystem durchgeführt werden 


müssen. 


Zur Umsetzung dieser Ziele kommen in Pro, die im Folgenden beschriebenen Methodiken bzw. 
Techniken zum Einsatz: Um frei formulierte und beliebig lange Beschreibungen interpretieren zu 
können, wird ein möglichst tiefes Verständnis der natürlichen Sprache angestrebt. Die Interpretation 
einer gesprochenen Äußerung als Programm, das beliebig viele Anwendungsschnittstellenaufrufe 


Das bedeutet, Beschreibungen können prinzipiell in beliebigen Modi abgegeben werden. Es zeigt sich jedoch, dass 
Anweisungsbeschreibungen für gewöhnlich im Indikativ-Aktiv oder Passiv formuliert werden. Neben der freien 
Wahl des Modus können auch beliege Satzstrukturen, einschließlich beliebiger Formen von Nebensätzen, verwendet 
werden. 

Beispielsweise interagieren humanoide Roboter mit Objekten (Erfassen, Greifen, etc.) oder Heimautomationssysteme 
mit Geräten bzw. Anlagen. 


N 
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5.1 Zielbestimmung 


und Kontrollstrukturen enthalten kann, erfordert die Schließung der von Knöll und Mezini beschrie- 


benen semantischen Lücke, die zwischen natürlichen Sprachen und Programmiersprachen klafft 


(siehe|Abschnitt 3.3). Natürliche Sprache ist inhärent mehrdeutig; unter anderem können sowohl 


die Bedeutung einzelner Wörter als auch Satzstrukturen je nach Kontext unterschiedlich ausgelegt 
werden. Außerdem enthalten natürlichsprachliche Äußerungen häufig implizite Relationen?| Pro- 
grammiersprachen folgen hingegen einer eindeutigen Syntax und Referenzen sind explizit. Das 
bedeutet, um natürliche Sprache als Programmiersprache verwenden zu können, müssen Mehrdeu- 
tigen soweit wie möglich aufgelöst und implizite Relationen expliziert werden. Hierzu kommen 
in Proy_, Agenten zum Einsatz, die unabhängig voneinander bestimmte Aspekte der Semantik 
natürlichsprachlicher Äußerungen analysieren. Die Agenten können beliebige Ansätze verfolgen; 
sowohl heuristische Verfahren als auch maschinelles Lernen und auf Inferenz basierende Techniken 
werden angewandt. Die Semantik-Analysen der Agenten werden soweit wie möglich unabhängig 
von konkreten Anwendungsdomänen durchgeführt. Dadurch können Agenten wiederverwendet 
werden, wenn sich die Anwendungsdomäne ändert. Natürlich besteht bei einigen Agenten die 
Notwendigkeit, Information über die Domäne in die Analyse einzubeziehen?| Das Wissen über 
die Anwendungsdomäne wird in Ontologien modelliert. Die Ontologien besitzen eine vorgegebene 
Struktur, die den Agenten bekannt gemacht wird; die genauen Inhalte (das heißt die in der Ontologie 
enthaltenen Individuen) können von Agenten zur Laufzeit abgefragt werden. Dadurch bilden die 
Ontologien eine Art Schnittstelle zu Domänenwissen?] 


Die Entwicklung von Pro, soll Evaluations-getrieben erfolgen. Das bedeutet, die Entwicklung 
der einzelnen Bestandteile (Fließbandstufen und Agenten) wird von kontinuierlichen Evaluationen 
anhand realistischer Eingabedaten begleitet (siehe Abschnitt 5.5). Die Bestandteile werden (größten- 
teils) unabhängig voneinander und unabhängig von der Anwendungsdomäne evaluiert. Letzteres ist 


aufgrund der zuvor beschriebenen Trennung von Sprachanalysen und Anwendungsdomäne möglich. 
Durch die kontinuierliche Evaluation der Einzelbestandteile kann bestimmt werden, wie gut diese 
ihre jeweilige Analyseaufgabe lösen und welchen Beitrag sie zum Gesamtsystem leisten. Gleichzeitig 
wird aus Sicht des Gesamtsystems offengelegt, welche Bestandteile Verbesserungspotenzial besitzen, 
um die Qualität der Gesamtlösung zu verbessern. So wird ein kontinuierlicher Entwicklungsfort- 
schritt sichergestellt und die Erfolgsaussichten des Ansatzes können bereits vor der Evaluation des 
Gesamtsystems abgeschätzt werden. Durch die Einzelevaluationen der Agenten und Fließbandstufen 
entsteht zudem sukzessive ein Datensatz für die abschließende Evaluation von Prof). 


Um die anfangs genannten Ziele mit den beschriebenen Methodiken umsetzen zu können, müssen 
für Prof, Einschränkungen getroffen werden. Die erste betrifft die natürliche Sprache, die als 
Eingabe akzeptiert wird. Prof, beschränkt sich ausschließlich auf die Interpretation englischspra- 
chiger Äußerungen. Die Computerlinguistik-Forschungsgemeinde fokussiert einen Großteil ihrer 
Bemühung auf die englische Sprache. Folglich stehen Ressourcen, das heißt Werkzeuge, Korpora 


Beispiele hierfür sind elliptische Auslassungen oder die Referenzierung von Entitäten anhand eines Oberbegriffs (z. 
B. „There are the fox and the dog. The two animals stroll about.“). 

Beispielsweise muss ein Agent, der Anwendungsschnittstellenaufrufe synthetisiert, wissen, welche Funktionen die 
Anwendungsschnittstelle anbietet (siehe[Abschnitt 7.8). 

Den Agenten wird auf diese Weise zum Beispiel bekannt gemacht, dass es ein Zielsystem mit Klassen, Methoden, 
Parametern usw. gibt. Welche das genau sind, wird hinter der Schnittstelle (das heißt in der Ontologie) verborgen. 
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und vortrainierte Modelle, vor allem für Englisch zur Verfügung? 


Da Proj% auf die Verwendung 


unterschiedlicher Ressourcen angewiesen ist, steht zu erwarten, dass die bestmöglichen Ergebnisse 
für englischsprachige Eingaben erzielt werden können”| Weitere Einschränkungen müssen hinsicht- 
lich des Inhalts der erzeugten Quelltextgenerate getroffen werden. Der Fokus von Prog% richtet 
sich auf die Programmierung gegen APIs. Daher sind alle durch Proy/, synthetisierten Anweisung 
entweder API-Aufrufe oder Aufrufe selbst definierter Funktionen. Diese entstehen wiederum durch 
Komposition primitiver Operationen, die vom Zielsystem angeboten werden (siehe{Abschnitt 7.8). 
Die API des Zielsystems muss das passende — das heißt ein vergleichsweise hohes — Abstraktions- 


niveau aufweisen. Das bedeutet, die angebotenen Funktionen müssen in etwa Handlungen (bzw. 
Aktionen oder Überprüfungen) entsprechen, die in der Gedankenwelt von Laien vorkommen®| Dies 
ist allerdings üblicherweise bei Anwendungsschnittstellen zur Endnutzer-Programmierung der Fall, 


auf die Prof% ausgelegt ist’, Durch diese Ausrichtung auf Endnutzer-Programmierung werden 


durch die Verwendung von Pro, keine komplexen Systeme entstehen können. Das bedeutet, es 


sollen ausschließlich skriptartige Programme synthetisiert werden; die Erzeugung von Modulen 
(bzw. Klassen) soll nicht unterstützt werden. Außerdem soll der generierte Quelltext vorrangig die 
vom Nutzer beschriebene Funktionalität umsetzen. Dabei werden keinerlei Effizienzbetrachtungen 
bei der Synthese einbezogen. Auch Sicherheitsaspekte werden explizit nicht betrachtet. 


Im Folgenden werden die für Pro, definierten Ziele, die grundlegenden Methodiken und die 


getroffenen Einschränkungen in einer Übersicht zusammengefasst: 


Ziele: 


(Zı) Programmierung durch gesprochene Anweisungen 

(Z2) Eignung für Endnutzer bzw. Laien (hinsichtlich des Sprachverständnisses) 
(Z3) Erzeugung von beliebig langen Programmen 

(Z4) Erkennung und Synthese von Kontrollstrukturen 

(Zs) Beschreibung neuer Funktionalität (Methodendefinitionen) 

(Ze) Abbildung auf Anwendungsschnittstellenaufrufe (API-Aufrufe) 


(Zr) Adaptierung an andere Domänen möglich (mit geringen Aufwand) 


Viele Werkzeuge, wie Systeme zur automatischen Spracherkennung oder Computerlinguistikfließbänder bieten zwar 
auch die Verwendung von Modellen für andere Sprachen an, die besten Ergebnisse werden aber fast ausschließlich 
für Englisch erzielt. Auch Korpora stehen prinzipiell auch für andere Sprachen zur Verfügung. Größere Korpora, 
insbesondere bearbeitete (das heißt mit Etiketten versehene), finden sich aber nur für die englische Sprache. 
Dementsprechend sind auch vortrainierte Sprachmodelle, die auf ebendiesen Korpora basieren, für das Englische am 
ausgereiftesten. 

Die in den anschließenden Kapiteln beschriebenen Sprachanalysen hängen nur geringfügig von der konkreten 
natürlichen Sprache ab, z. B. durch die Verwendung von Signalwörtern. Dementsprechend könnte Prof, zukünftig 
mit (voraussichtlich) geringen Aufwand auch für andere Sprachen eingesetzt werden. 

Beispielsweise steht nicht zu erwarten, dass Nutzer die Motorbewegungen eines Roboterarms beschreiben, die zum 
Greifen eines Objekts nötig sind; stattdessen sollte die API ein Primitiv wie Greifen anbieten. 

Bietet die API nicht das passende Abstraktionsniveau, können entweder entsprechende Funktionen zur API hinzugefügt 
werden oder bei der Erstellung der Zielsystemontologie passende Primitive angelegt werden, die aus API-Aufrufen 


zusammengesetzt sind (siehe Abschnitt 5.4). 
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Methodiken: 


(Mı) Erzeugung von tiefem Sprachverständnis 
(Ma) Verwendung von spezialisierten Agenten zur Analyse der Semantik 
(M3) Trennung von Sprachanalysen und Domänenwissen 


(Ma) Evaluations-getriebene Entwicklung 
Einschränkungen: 


(Eı) Unterstützung von ausschließlich englischsprachigen Eingaben 

(E2) Beschränkung auf Zielsysteme, die Programmierung durch Endnutzer erlauben 
(E3) Beschränkung auf Anwendungsschnittstellen mit hohem Abstraktionsniveau 
(E4) Alle Anweisungen entsprechen Anwendungsschnittstellenaufrufen (API-Aufrufe) 
(E5) Keine Erzeugung komplexer, effizienter oder sicherheitskritischer Programme 


(Es) Beschreibung von Modulen (bzw. Klassen) nicht möglich 


5.2 Forschungsansatz 


Mit Prof; soll ein System zur Endnutzer-Programmierung mit gesprochener Sprache entstehen. 
Grundlegend basiert der Ansatz zum einen auf der Verwendung von Agenten, die unabhängig 
voneinander unterschiedliche sprachliche Phänomene analysieren und im Zusammenspiel ein tiefes 
Verständnis natürlichsprachlicher Sprache ermöglichen. Zum anderen wird die Anwendungsdomäne 
von den Sprachanalysen getrennt, wodurch diese allgemeingültig angelegt werden können. 


Das System Pro, entsteht durch konkrete Implementierungen von Modulen, wie sie von der 
Architektur PARSE vorgesehen sind. Das bedeutet, es werden Fließbandstufen und Agenten als 
Einschübe (für die Rahmenarchitektur Luna) bereitgestellt, die jeweils eine dedizierte Sprachanalyse- 
aufgabe lösen (siehe Abschnitt 4.2.5). Außerdem werden externe Ressourcen zur Verfügung gestellt. 
Zum einen werden Wissendatenbanken, wie zum Beispiel WordNet, DBpedia oder PropBank, zur 


Verfügung gestellt. Zum anderen wird die Repräsentation der Anwendungsdomäne angebunden. 
Diese wird in Proy,, als Ontologie mit festgelegter Struktur umgesetzt; dadurch entsteht eine 
Art Schnittstelle zu Domänenwissen (siehe [Abschnitt 5.4). Die Anwendungsdomänen in Proy,, 
untergliedern sich in ein zu programmierendes Zielsystem (z. B. ein humanoider Roboter) und 
eine optionale Systemumgebung (z. B. eine Küche mit Geräten, Orten und Objekten). Im nachfol- 


genden Abschnitt werden die einzelnen Komponenten von Prof% und in|Abschnitt 5.4 konkrete 


Anwendungsdomänen beschrieben. Die Entwicklung von Prof% erfolgt Evaluations-getrieben. 
Das bedeutet, jedes Modul soll soweit wie möglich für sich evaluiert werden; dies gilt insbesondere 
für die Agenten für tiefes Sprachverständnis. Evaluiert werden die Agenten anhand von Sprachauf- 
nahmen, die Nutzerstudien entstammen. Für nahezu jeden Agenten wird eine Studie durchgeführt, 
wodurch Korpora entstehen. Der jeweilige Agent kann anhand der jeweils gesammelten Daten 


127 


5 ProNat — Ein System zur Endnutzer-Programmierung mit gesprochener Sprache 


intrinsisch evaluiert werden. Dadurch entsteht sukzessive ein Gesamtkorpus, das für die Evaluation 
des Gesamtsystems verwendet werden kann (siehe Kapitel 9). Die Nutzerstudien und die daraus 
entstandenen Korpora werden in Abschnitt 5.5|beschrieben. 


5.3 Komponentenübersicht 


Das System Prof% entsteht durch die Bereitstellung von Einschüben für die Rahmenarchitektur 
Luna; konkrete Einschübe sind entweder Agenten oder Fließbandstufen (siehe|Abschnitt 4.2.5). Die 
Rahmenarchitektur sorgt dafür, dass die in Einschüben umgesetzten Analysen ausgeführt werden. 


Zunächst werden alle Stufen des von der Architektur PARSE vorgesehen Vorverarbeitungsfließban- 
des nacheinander ausgeführt. Das Vorverarbeitungsfließband ist Architektur-seitig dafür vorgesehen, 
die Eingabe entgegenzunehmen und einen initialen Graphen zu erzeugen. Für das System Pro, 
bedeutet das: Ein Audiosignal wird entgegengenommen und daraus eine Tokensequenz erzeugt; 
diese wird anschließend mithilfe von grundlegenden syntaktischen Analysen vorverarbeitet und 
aus den gesammelten Informationen ein Graph generiert. Anschließend werden die bereitgestellten 
Agenten innerhalb der Einheit zur Analyse der Semantik parallel und wiederholt ausgeführt (siehe 
Abschnitt 4.2.4). Die für Prof; entwickelten konkreten Agenten werden in der Folge als Profy- 
Agenten bezeichnet. dasselbe gilt das Graphmodell von PARSE: die konkrete Instanz wird als 
Proyj/_,-Graph bezeichnet. Die Agenten analysieren die Semantik und erzeugen im Zusammenspiel 
ein tiefes Verständnis der natürlichsprachlichen Äußerung. Pro/,-Agenten lassen sich gemäß ihres 
Zwecks in drei Kategorien unterteilen: Agenten für generelles Sprachverständnis (z. B. zur Auflösung 
sprachliche Referenzen), Agenten zur Erkennung programmatischer Strukturen (z. B. zur Erkennung 
von Kontrollstrukturen) und funktionale Agenten (z. B. zur Signalisierung der Terminierung). Nach 
Beendigung der semantischen Analyse wird aus dem Analyseergebnis schrittweise Quelltext erzeugt. 
Hierzu führt Luna die für das Nachverarbeitungsfließband bereitgestellten Stufen aus. Die Ausgabe 
der letzten Stufe ist ein Quelltextgenerat für ein konkretes Zielsystem, das in einer konkreten 
Umgebung agiert. Damit dies gelingen kann, müssen den Agenten und Fließbandstufen Informa- 
tionen über die Anwendungsdomäne (Zielsystem und Systemumgebung) bekannt gemacht werden. 
Domänenwissen wird in Prof,,, wie von der Architektur PARSE vorgesehen, in Ontologien 
modelliert. Für jede Anwendungsdomäne muss eine Ontologie bereitgestellt werden. Um Prof, 


zur Programmierung eines Zielsystems in einer bestimmten Umgebung verwenden zu können, 
10/11 


muss Pro, mit der passenden Anwendungsdomäne konfiguriert werden Zusätzlich werden 


weitere externe Ressourcen, wie Wissensdatenbanken, den Agenten und Fließbandstufen über die 
Rahmenarchitektur Luna bereitgestellt. 


Anstatt Proj, mit einer Domänenontologie zu konfigurieren, kann auch ein Agent verwendet werden, der zur 
Laufzeit für eine natürlichsprachliche Außerung automatisch das wahrscheinlichste Zielsystem und die passende 
Systemumgebung auswählt (siehe [Abschnitt 7.9). 

Anstatt pro Domäne eine Ontologie zu verwenden, könnten auch alle Informationen über Zielsysteme und Umgebungen 
in einer einzigen Ontologie repräsentiert werden. Dadurch entfiele die Notwendigkeit Pro, mit einer Ontologie zu 
konfigurieren. Andererseits sind Suchen nach Individuen (anhand von Zeichenkettenähnlichkeiten) in einer großen 
Ontologie unschärfer; je Suchanfrage werden deutlich mehr Ergebnisse zurückgeliefert (siehe [Abschnitt 5.4.2). 
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5.4 Repräsentation der Anwendungsdomäne 


Das System Pro, setzt sich dementsprechend aus den folgenden konkreten Bestandteilen (der 
Architektur PARSE) zusammen: 


e einer Menge von Vorverarbeitungsfließbandstufen, 
e einer Menge von Agenten, 

e einer Menge von Nachverarbeitungsfließbandstufen, 
e genau einer Domänenontologie (austauschbar) und 


e weiteren externen Ressourcen. 


Nachfolgend wird zunächst in|Abschnitt 5.4|beschrieben, wie die Anwendungsdomänen für Prof, 


als Ontologien repräsentiert werden. Die für Prof, entwickelten Einschübe werden in den 
darauffolgenden Kapiteln ausgeführt: die Vorverarbeitungsfließbandstufen in Kapitel 6; die Agenten 


in/Kapitel 7/und zuletzt die Nachverarbeitungsfließbandstufen in Kapitel 81? 


5.4 Repräsentation der Anwendungsdomäne 


Anwendungsdomänen werden in Pro, als Ontologien repräsentiert. Die Struktur der Ontologien, 
das heißt die Klassenhierarchie und mögliche Relationen, wird vorab festgelegt. Diese Struktur wird 
den anderen Modulen von Pro, bekannt gemacht; verborgen wird (während der Entwicklung) 
hingegen der konkrete Inhalt, das heißt die Individuen innerhalb der Klassen und Ausprägungen 
von Relationen zwischen den Individuen. Die Agenten und Fließbandstufen können allerdings zur 
Laufzeit Informationen abfragen. Beispielsweise können alle Individuen einer Klasse zurückgeliefert 
oder mithilfe von Zeichenkettenähnlichkeitsmetriken (siehe [Abschnitt 2.3.13) nach Individuen 


gesucht werden. Dadurch können Agenten und Fließbandstufen auf Domänenwissen zugreifen, ohne 


vorab Annahmen über konkrete Inhalte treffen zu müssen. Das bedeutet, die in Prof, verwendeten 
Domänenontologien bilden eine Art Schnittstelle zu Domänenwissen. Der Vorteil der Trennung 
von Sprachanalysen und Domänenwissen ist, dass Agenten und Fließbandstufen unabhängig von 
konkreten Anwendungsdomänen entwickelt werden können. Ändert sich die Anwendungsdomäne, 
in der Pro, verwendet wird, muss lediglich die Ontologie ausgetauscht werden; das übrige System 
kann prinzipiell unverändert weiterverwendet werden. 


Prof; unterteilt Anwendungsdomänen in Zielsysteme und Systemumgebungen. Zielsysteme sind 
beliebige (Computer-)Systeme, die sich zur Endnutzer-Programmierung eignen und eine entspre- 
chende Anwendungsschnittstelle bereitstellen. Mögliche Zielsysteme sind beispielsweise humanoide 
Robotersysteme, Heimautomationssysteme oder virtuelle Assistenzsysteme. Systemumgebungen 
sind hingegen Sammlung von Objekten, die nicht Teil eines Zielsystems sind, mit denen Systeme 
interagieren können. Beispielsweise könnte ein Roboter in unterschiedlichen Räumen eines Hauses 
agieren; jeder Raum sowie enthaltene Orte, Objekte etc. könnten als Systemumgebungen modelliert 


'2 Die Anbindung der externen Ressourcen wird nicht dediziert beschrieben. Stattdessen erfolgt die Beschreibung dann, 


wenn eine Fließbandstufe oder ein Agent eine externe Ressource verwendet. 
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hasMethod hasParameter ofDataType hasValue 


Abbildung 5.1: Struktur der für Pro /_, verwendeten Zielsystemontologien. 


werden. Für ein virtuelles Assistenzsystem können hingegen Applikationen, mit denen das Assistenz- 
system interagiert, als Umgebung modelliert werden; beispielsweise könnte eine Umgebung Kalender 
mit den Objekten Termin, Uhrzeit etc. verwendet werden. Aufgrund dieser Aufteilung der Anwen- 
dungsdomänen werden für Prof, auch zwei Arten von Ontologien verwendet. Dadurch können 
konkrete Anwendungsdomänen flexibel gestaltet werden: Zielsysteme können in unterschiedlichen 
Umgebungen verwendet werden und umgekehrt. Eine konkrete Anwendungsdomäne wird gebildet, 
indem Zielsystem- und Umgebungsontologien fusioniert werden (engl. ontology merging). Für 
Pro/,, wurden vier konkrete Zielsystem- und neun Umgebungsontologien erstellt. Diese können 
prinzipiell beliebig kombiniert werden (wobei nicht alle Kombinationen sinnhaft sind). Nachfolgend 
werden zunächst die für Prof, festgelegten Strukturen der Zielsystem- und Umgebungsontologien 
erläutert (Abschnitt 5.4.1). Anschließend wird beschrieben, wie auf Domänenwissen zugegriffen 


werden kann (Abschnitt 5.4.2). Zuletzt werden die konkreten, für Pro, erstellten Ontologien 
vorgestellt (Abschnitt 5.4.3). 


5.4.1 Struktur der Ontologien 


Hinsichtlich der Struktur der für Pro, verwendeten Ontologien werden zwei Vorgaben gemacht: 
Zum einen wird die Klassenhierarchie festgelegt; zum anderen werden vorab die Relationen zwi- 
schen Klassen und damit die potenziellen Relationen zwischen Individuen der jeweiligen Klassen 
bestimmt. Pro, sieht die Verwendung von zwei Arten von Ontologien vor: Zielsystem- und 
Umgebungsontologien. Beide besitzen eine unterschiedliche, aber feste Struktur. Abbildung 5.1 


zeigt die für Zielsysteme vorgesehene Struktur. Wie zu sehen ist, besitzen die Zielsystemontologien 
eine flache Klassenhierarchie. Unterhalb des obersten Konzepts der Ontologie (Thing) werden 
direkt alle Unterklassen als disjunkte (Geschwister)-Klassen angeordnet. Diese repräsentieren die 
Elemente der Anwendungsschnittstelle: Klassen bzw. Module (System), Methoden (Method), Para- 
meter (Parameter), Datentypen (DataType) und Werte bzw. Wertebereiche (Value). Zusätzlich 
wird durch die Relationen modelliert, dass Klassen öffentliche Methoden anbieten (hasMethod), 
Methoden Parameter besitzen können (hasParameter), Parameter einem gewissen Datentyp zuge- 
hörig sind (ofDataType) und Datentypen bestimmte Werte annehmen können (hasValue). Die 
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Tabelle 5.1: Konzepte der für Prof, festgelegten Zielsystemontologiestruktur: Neben der Struktur ist für jedes Konzept 
eine Kurzbeschreibung der enthaltenen Individuen angegeben; zusätzlich werden in Klammern jeweils beispielhafte 


Individuen genannt. 


Konzept Beschreibung 

Thing Oberstes Konzept der Ontologie 

L System Systeme und Subsysteme, d.h. API-Klassen bzw. Module 
(z. B. Robot, Drone oder Alexa) 

L- Method Systemfunktionen, d. h. API-Methoden 


(z. B. move, open, makeVideo oder playSong) 
L- Parameter Parameternamen, die in den API-Methoden auftreten 


(z. B. move.where, move.howFast oder play.what) 


- DataType Datentypen, die dem System bekannt sind 
(z. B. int, String, Speed oder Graspable) 

L Value Werte bzw. Wertebereiche, die Datentypen annehmen können 
(z. B. int_range, Speed.FAST oder Speed.SLOW) 

L Object externe Umgebungsobjekte <hier leer> 

L State Zustände der Umgebungsobjekte <hier leer> 


Modellierung von Anwendungsschnittstellen ist damit vergleichsweise einfach gehalten; verwandte 


Arbeiten, wie beispielsweise der Ansatz von Atzeni und Atzori [AA18], verwenden aufwendigere 


Modellierungen. Für Prof, wurde diese generische Darstellungsform gewählt, um möglichst viele 
unterschiedliche Typen von APIs und Programmiersprachen repräsentieren zu können; außerdem ist 
diese Modellierung für die hiesigen Zwecke ausreichend. 


Tabelle 5.1| führt die einzelnen Klassen und den jeweiligen Zweck für die Modellierung von 


Zielsystemen auf. In der Tabelle sind in den letzten beiden Zeilen zwei zusätzliche Klassen 
aufgeführt: Object und State. Diese werden verwendet, wenn das Zielsystem in Verbindung 
mit einer Umgebung eingesetzt werden soll. Die beiden Klassen entsprechen den auf oberster 


Hierarchieebene angesiedelten Klassen der Umgebungsontologien, wie in Tabelle 5.2)gezeigt. Durch 


die Struktur von Umgebungsontologien wird dementsprechend festgelegt, dass eine Umgebung 
aus Objekten (Object) besteht, die Zustände annehmen können (State). Innerhalb der Objekt- 
Klasse können Unterklassen angelegt werden, um Objekte zu typisieren. Auf diese Weise können 
auch andere Umgebungselemente modelliert werden; beispielsweise könnten Orte bzw. Positionen 
mithilfe eines Objekttyps Location repräsentiert werden. Es können beliebig viele Unterklassen 
der Objekt-Klasse definiert werden; eine weitere Hierarchieebene ist nicht vorgesehen. Innerhalb 
der Zielsystemontologien bleiben die beiden Klassen Object und State leer und bilden so 
die Ansatzpunkte für die Fusionierung mit Umgebungsontologien, wie am Ende des Abschnitts 
beschrieben. 


Konkrete Zielsystem- und Umgebungsontologien entstehen, in dem die vordefinierten Strukturen mit 
Individuen befüllt werden. Im Fall der Zielsysteme sind die Ontologie-Individuen Repräsentationen 
konkreter API-Elemente, das heißt Klassen, Methoden, Parametername etc., der jeweiligen Anwen- 
dungsschnittstelle. Die Individuen enthalten einen Rückverweis auf das tatsächliche API-Element, 
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Tabelle 5.2: Konzepte der für Prof% festgelegten Umgebungsontologiestruktur: Neben der Struktur ist für jedes Konzept 
eine Kurzbeschreibung der enthaltenen Individuen angegeben; zusätzlich werden in Klammern jeweils beispielhafte 
Individuen genannt. 


Konzept Beschreibung 
Thing Oberstes Konzept der Ontologie 
L Object Umgebungsobjekte 


(z. B. Table, Kitchen.CeilingLight oder Date) 
L- Graspable Objekte, die greifbar sind 
(z. B. Cup, Fork oder Fridge.Door) 
L Openable Objekte, die geöffnet werden können 
(z. B. WaterBottle, Microwave.Door oder Fridge.Door) 


L- Closeable Objekte, die geschlossen werden können 


(z. B. OrangeJuice, Cupboard.Door oder Dishwasher.Door) 


L State Zustände der Umgebungsobjekte 
(z. B. opened, closed, clean oder dirty) 


damit innerhalb des Nachverarbeitungsfließbands API-Aufrufe synthetisiert werden können (siehe 
Abschnitt 8.3). Die Modellierung der API-Elemente kann manuell erstellt werden; dies ist jedoch 
aufwendig und daher nur für Anwendungsschnittstellen mit geringem Umfang umsetzbar. Alternativ 


können API-Elemente beispielsweise mithilfe von Zerteilern (engl. parser) ausgelesen und die Mo- 
dellierung automatisiert werden. Werkzeugen zur automatischen Überführung von API-Elementen 
in ein Ontologiemodell können mit geringem Aufwand erstellt werden. Beispielsweise umfasst 
das entsprechende Werkzeug zum Auslesen von Java-Schnittstelen lediglich 436 Quelltextzei- 
len [WLB19]. Bei der automatischen Überführung entsprechen die Namen der Ontologie-Individuen 
den Bezeichnern der API-Elemente; das bedeutet, Zielsystemontologien können nur automatisch 


erzeugt werden, wenn die API sprechende Namen verwendet] Sind die Benennungen der Individuen 
nach der automatischen Überführung nicht optimal, können sie nachträglich händisch verbessert 
werden. Konkrete Umgebungsontologien Können auf ähnliche Weise erstellt werden. Entweder 
können vorhandene Modellierungen mithilfe eines Konvertierungswerkzeugs automatisch in das 
Proy,,-Format überführt werden (wobei der Aufwand von der jeweiligen Modellierung abhängt). 
Alternativ ist auch für die Umgebungsontologien eine manuelle Modellierung möglich. 


Zur Bildung einer konkreten Anwendungsdomäne wird eine Systemontologie mit beliebig vielen 
Umgebungsontologien fusioniert (also gegebenenfalls auch keiner]'*] Diese Fusionierung ist 


erforderlich, da PARSE die Verwendung von genau einer Ontologie zur Repräsentation von 


Einige Prof, -Agenten bilden natürlichsprachliche Sequenzen auf Ontologie-Individuen ab. Die Abbildung erfolgt 
(unter anderem) anhand der Namen der Individuen, weshalb eine sinnhafte Namensgebung für diese erforderlich ist 
(siehe beispielsweise [Abschnitt 7.8). 

Manche Anwendungsdomänen bestehen ausschließlich aus einer Anwendungsschnittstelle; es findet keine Interaktion 
mit der Umgebung statt. Andererseits können manche Systeme gleichzeitig in mehreren Umgebungen verwendet 
werden. Beispielsweise könnte ein humanoider Roboter sowohl in der Umgebung Küche als auch in der Umgebung 
Wohnzimmer verwendet werden. 
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Domänenwissen vorsieht (siehe |Kapitel 4). Zur Fusionierung wird eine neue Ontologie-Instanz 


erzeugt, die der zu verwendenden Zielsystemontologie entspricht. In diese Ontologie werden 
anschließend die Inhalte der ausgewählten Umgebungsontologien in die dafür vorgesehenen 
Platzhalter-Klassen eingefügt (siehe Tabelle 5.1). Außerdem wird für die Unterklassen der Objekt- 
Klasse der Umgebungsontologien jeweils ein Individuum innerhalb der DataType-Klasse der 


Zielsystemontologie angelegt. Dadurch können Objekttypen als Datentypen verwendet werden. 
Die Fusionierung der Ontologien kann entweder manuell durchgeführt werden. Als Alternative 
wurde ein Proy_,-Agenten entwickelt, der automatisch zur Laufzeit anhand der Themen einer 
natürlichsprachlichen Äußerung Zielsystem- und Umgebungsontologien bestimmen kann (siehe 


Abschnitt 7.9). 


5.4.2 Steuerung des Zugriffs auf Domänenontologien 


Die Domänenontologien werden innerhalb eines Moduls geladen und mithilfe der Rahmenarchitektur 
Luna den Agenten und Fließbandstufen zur Verfügung gestellt. Das Modul bietet eine Schnittstelle 
für geregelte Zugriffe auf Domänenwissen. Ontologien werden in Pro, im OWL-Format abgelegt 
(siehe [Abschnitt 2.3.14). Das Ontologie-Modul ermöglicht Agenten und Fließbandstufen den 
lesenden Zugriff auf die Ontologie-Darstellung im OWL-Format. Da die Ontologien in Prof, 


festlegten Strukturen folgen, kann das Ontologie-Modul weitere Zugriffsmöglichkeiten anbieten. 
Unter anderem können alle Methoden des Zielsystems zurückgegeben werden. Ebenso können 
Relation dazu genutzt werden, für eine Methode alle zugehörigen Parameter zu liefern. Gleiches 
wird für die anderen Klassen und Relationen der Ontologien angeboten. Darüber hinaus kann in 
der Ontologie und in einzelnen Klassen (anhand der Namen) nach Individuen gesucht werden; 
Suchen liefern immer Mengen von Individuen. Neben der Möglichkeit, anhand exakter und 
teilweiser Übereinstimmung der Zeichenketten zu suchen, können auch sogenannten Suchstrategien 
verwendet werden. Suchstrategien bestehen aus einem Ähnlichkeitsmaß für Zeichenketten und einem 
zugehörigen Schwellenwert. Ein Individuum wird bei Verwendung einer Suchstrategie genau dann 
in die Ergebnismenge aufgenommen, wenn der Wert für das Ähnlichkeitsmaß beim Vergleich des 
Suchbegriffs mit dem Individuen-Namen den Schwellenwert übersteigt. Folgende Ähnlichkeitsmaße 
werden für die Suchstrategien angeboten: 


e Levenshtein-Ähnlichkeit (siehe|Abschnitt 2.3.13.1), 


e Jaro-Winkler-Ähnlichkeit (siehe Abschnitt 23.182) und 


e unscharfe Ahnlichkeitsbewertung (engl. fuzzy score, siehe|Abschnitt 2.3.13.3). 


Die Verwendung der Suchstrategien hat den Vorteil, dass nicht nur bloße Mengen von Individuen 
geliefert werden, sondern die einzelnen Individuen zusätzlich eine Konfidenz erhalten; die Konfidenz 
entspricht dem erzielten Wert für das Ähnlichkeitsmaß. 
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Tabelle 5.3: Anzahl der in den Konzepten enthaltenen Individuen je Zielsystemontologie. 


Systeme Methoden Parameter Datentypen Werte 


Humanoider Roboter 3 92 59 14 34 
Lego Mindstorms 1 39 57 21 30 
Flugdrone 4 15 3 9 9 
Virtueller Assistent 2 14 9 17 22 


5.4.3 Verwendete Ontologien 


Zu Demonstrations- und Evaluationszwecken wurden für Pro/, vier exemplarische Zielsystem- 
und neun Umgebungsontologien erstellt. Die Zielsysteme umfassen zwei Robotersysteme sowie eine 


(zivile) Flugdrohne und einen virtuellen Assistenten. In Tabelle 5.3|sind die Zielsysteme und die 


jeweils zur Modellierung erstellten Individuen für die einzelnen Klassen aufgeführt. Das erste System 
ist ein humanoider Roboter, dessen Funktionsweise stark an den am KIT entwickelten ARMAR-III 
angelehnt ist [Asf+06]. Abbildung 5.2 [zeigt eine Foto von ARMAR-III. Der Haushaltsroboter agiert 
vorwiegend in einer eigens angefertigten Küchenumgebung. In dieser kann er sich frei bewegen und 


mit seiner Umgebung interagieren. ARMAR-III kann unter anderem Objekte erkennen und greifen, 
aber auch komplexere Aktionen durchführen, wie beispielsweise Schränke öffnen oder Geräte 
bedienen. Mit ArmarX wird ein Programmiersystem bereitgestellt, das es erlaubt Aktionen mit 
hohem Abstraktionsniveau zu erstellen, wie das Greifen oder Lokalisieren von Objekten [Wel+13]. 
Ausgehend von den Möglichkeiten von ArmarX wurde die Zielsystemontologie Humanoider Roboter 
händisch erstellt. Die Funktionen wurden so modelliert, dass eine Umsetzung mit ArmarX möglich 
ist. Das bedeutet, das Abstraktionsniveau wurde so gewählt, dass primitive Aktionen ausgeführt 
werden, die von Menschen beschrieben werden können. Es wurden aber keine komplexen Aktionen 
modelliert, die eine Reihe primitiver Aktionen erfordern. Nahezu alle Funktionen wurden in mehreren 
Varianten, das heißt als überladene Methoden, modelliert. Dadurch entsteht ein Funktionsumfang 
von 92 Methoden. Unter anderem enthält die Ontologie die folgenden Funktionen: 


° move(where) 

° move (howFast) 

e move(where, howFast) 
e locate (what) 


e locate (what, where) 


Der verhältnismäßig große Funktionsumfang und die vielen Methodenüberladungen wurden so 


umgesetzt, da diese Zielsystemontologie vorrangig zur Evaluation des Gesamtsystems Prof, 


genutzt werden soll (siehe Kapitel 9). Damit die Quelltextgenerierung nicht trivial ist, sollte die 


Ontologie einen gewissen Mindestumfang und eine gewisse Komplexität aufweisen. Die modellierten 
Datentypen entsprechen hauptsächlich (primitiven) Standarddatentypen, wie Integer und String. 
Zusätzlich wurden Enumerationen zur Repräsentation von Geschwindigkeiten, Farben etc. erstellt. 
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(a) ARMAR-II (b) Lego-Mindstorms-Roboter 


Abbildung 5.2: Fotos des ARMAR-III (a) und des Lego-Mindstorms-Roboters (b). 


Die zweite Zielsystemontologie modelliert die Java-API eines Lego-Mindstorms-Roboters!>| Lego- 
Mindstorms-Roboter bestehen aus Lego-Steinen, Sensoren, Motoren und einer Steuereinheit. Das 


in|Abbildung 5.2| gezeigte Modell kann sich auf einem Kettenfahrwerk fortbewegen und Farben, 


Linien sowie Objekte erkennen. Außerdem kann der Roboter mithilfe eines Greifers kleine Objekte 
anheben. Als Steuereinheit wird nicht die von Lego vorgesehen sondern eine freiprogrammierbare 


verwendet'‘| Dadurch können Anwendungsschnittstellen in verschiedenen Programmiersprachen 
genutzt werden, um den Roboter zu steuern. Die für Prof, verwendete Ontologie zur Modellierung 
des Lego-Mindstorms-Roboters wurde automatisch anhand einer Java-API generiert. Hierzu 
wurde ein Werkzeug entwickelt, das beliebige Java-APIs auslesen und automatisch in OWL- 
Ontologie-Repräsentation gemäß der in[Abschnitt 5.4. 1]definierten Struktur überführen kann. Die 
Anwendungsschnittstelle befindet sich auf einem ähnlichen Abstraktionsniveau wie die für den 
humanoiden Roboter modellierte. Das Zielsystem verfügt jedoch über weniger Methoden; diese sind 
allerdings stärker parametrisiert. Außerdem verwendet die Schnittstelle eine Reihe Enumerationen 
zur Modellierung von Geschwindigkeitsstufen, Farben, Richtungen etc. Daher enthält die Ontologie 


viele explizite Werte. 


5 Lego Mindstorms EV3: https: //education.lego.com/en-us/products/lego-mindstorms-education- 
ev3-core-set/5003400#lego-mindstorms-education-ev3, zuletzt besucht am 24.02.2021. 
Verwendet wird die sogenannte BrickPi-Steuereinheit, die auf einem Raspberry Pi 3 Model B basiert: https: 
//www.dexterindustries. com/brickpi/, zuletzt besucht am 24.02.2021. 


135 


5 ProNat — Ein System zur Endnutzer-Programmierung mit gesprochener Sprache 


Tabelle 5.4: Anzahl der in den Konzepten enthaltenen Individuen und Unterkonzepte (das heißt Objekttypen) je 
Umgebungsontologie. 


Objekte Objekttypen Zustände 


Küche 70 6 10 
Bar 56 8 0 
Garten 24 6 0 
Schlafzimmer 26 3 0 
Kinderzimmer 15 4 0 
Waschküche 11 6 6 
Music 37 4 0 
Heizung 6 2 2 
Parcours 13 1 0 


Zusätzlich zu den beiden Robotern wurden zwei synthetische Zielsysteme entwickelt: eine Flug- 
drohne und ein virtueller Assistent. Synthetisch bedeutet in diesem Zusammenhang, dass die 
beiden Ontologien keiner existierenden Anwendungsschnittstelle entsprechen. Die enthaltenen 
API-Elemente sind aber an reale Systeme angelehnt; das bedeutet, es werden Methoden- und Para- 
meternamen verwendet, die in ihrer Form den üblichen Konventionen entsprechen. Die Ontologie 
für die Flugdrohne enthält Funktionen zur Flugsteuerung, sowie zur Erstellung von Foto- und Video- 
aufnahmen. Der modellierte virtuelle Assistent ist an Amazon Alexa angelehnt (siehe|Abschnitt 3.4). 
Allerdings beschränkt sich die Funktionalität hier auf Uhrzeitfunktionen (Wecken, Timer stellen etc.) 
sowie Funktionen zum Abspielen von Musik und zur Steuerung eines Heimautomationssystems. 


An Umgebungsontologien wurden zunächst sechs räumliche Umgebungen erstellt: eine Küche, eine 
Bar, ein Garten, ein Schlafzimmer, ein Kinderzimmer und eine Waschküche. Die Umgebungen 
enthalten Objekte, bedienbare Geräte und Orte. Objekte und Geräte können gegebenenfalls Zustände 
annehmen. Beispielsweise Kann ein Ofen ein- oder ausgeschaltet und eine Flasche geöffnet oder 
geschlossen sein. Zusätzlich sind auch Teil-Ganzes-Beziehungen in den Ontologien modelliert; eine 
Kühlschranktür ist beispielsweise ein Teil eines Kühlschranks. Neben den räumlichen Umgebungs- 
modellierungen wurden zwei abstrakte Systemumgebungen erstellt: Musik und Hausgeräte. In der 
Musik-Ontologie sind Eigenschaften von Musikstücken, wie Genrezugehörigkeit oder Interpreten 
modelliert. Die Hausgeräte-Ontologie enthält eine Menge von Geräten, die mit einer Heimautomati- 
onssoftware gesteuert werden können. Zuletzt steht mit der Parcours-Ontologie eine Umgebung zur 
Verfügung die eine Menge kleiner Objekte enthält, die der Lego-Mindstorms-Roboter erkennen und 
greifen kann, beispielsweise eine Tasse, ein Schwamm und ein Glas. 


Die Umgebung Küche entspricht im Wesentlichen der Küchenumgebung in der ARMAR-III 


üblicherweise agiert. Abbildung 5.3 zeigt ein 3D-Modell und greifbare Objekte der Küchenumgebung. 


Neben den in der Küche vorhanden Geräten und Objekten wurden zusätzliche Objekte modelliert. 
Diese sind jedoch so gewählt, dass sie sich in das Szenario einfügen. Beispielsweise wurde ein 
Objekt AppleJuice (dt. Apfelsaft) in Anlehnung an das tatsächlich in der Küche vorhandene Objekt 
OrangeJuice (dt. Orangensaft) erstellt. Die Objekte der Umgebung Parcours sind ausnahmslos 


Realweltobjekte, wie zuvor genannt. Die weiteren Umgebungsontologien enthalten imaginäre 
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Low | 


(a) Küchenmodell (b) Greifbare Objekte 


Abbildung 5.3: 3D-Modell der Küche, in der ARMAR-II agiert (a) und Foto fünf exemplarischer Objekte, die der 
Roboter erkennen und greifen kann (b). 


Objekte und Zustände. Bei der Modellierung wurde darauf geachtet, die Umgebungen mit sinnhaften 
und nachvollziehbaren Objekten und Zuständen zu befüllen] Aus den vorhandenen Zielsystem- und 
Umgebungsontologien können Anwendungsdomänen erzeugt werden, indem eine Zielsystem- mit 
beliebig vielen Umgebungsontologien fusioniert wird (siehe[Abschnitt 5.4.1). Dabei stellt nicht jede 
Kombination eine sinnhafte Anwendungsdomäne dar. Beispielsweise kann der humanoide Roboter 
nicht mit der Musik-Umgebung oder der virtuelle Assistent nicht mit Küchen-Objekten interagieren. 
Der Lego-Mindstorms-Roboter ist gänzlich auf die Parcours-Umgebung beschränkt. Andererseits 
kann die gleichzeitige Verwendung mehrerer Umgebungen hilfreich sein: der humanoide Roboter 
könnte innerhalb einer Anweisungsfolge in unterchiedlichen Umgebungen agieren, beispielsweise 
im Kinderzimmer und im Schlafzimmer. Werden die beiden jeweils umfangreichsten Zielsystem- 
und Umgebungsontologien fusioniert, entsteht die Anwendungsdomäne humanoider Roboter in 
einer Kiichenumgebung*| Bei der Fusionierung werden die Individuen (und Unterklassen) der 
Umgebungsontologien in die dafiir vorgesehenen Platzhalter-Klassen der Zielsystemontologie 
kopiert. Zusätzlich werden die Objekttypen (Unterklassen der Objekt-Klassen) als zusätzliche 
Datentypen und die enthaltenen Umgebungsojekte als Werte des Zielsystems modelliert. Die so 
entstandene Domänenontologie hat folgenden Umfang (Individuen je Klasse): drei Systeme, 92 
Methoden, 59 Parameternamen, zwanzig Datentypen und 104 Werte und Wertebereiche. Aus dieser 
fusionierten Ontologie können unter anderem die folgende Informationen ausgelesen werden: 


e Es gibt ein Roboter-System (Individuum Armar), das verschiedene Funktionen anbietet. 
e Eine der Funktionen ist das Greifen (grasp). 


e Diese Funktion hat einen formalen Parameter (erwartet also ein Argument): das zu greifende 
Objekt (grasp. what). 


e Der Datentyp dieses Parameters ist Graspable. 


e Greifbare Objekte in der Umgebung sind unter anderem AppleJuice, Glass oder 


Dishwasher ..Door. 


Da es sich bei den Umgebungen um alltägliche, anschauliche Beispiele handelt, ist eine glaubhafte Modellierung 
enthaltener Objekte und Zustände unproblematisch. 

Dieser Aufbau entspricht im Wesentlichen ARMAR-II in seiner Küchenumgebung bei Verwendung des Program- 
miersystems ArmarX. 
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5.5 Korpora 


Prof% soll Evaluations-getrieben entwickelt werden (siehe Abschnitte 1.2|und 5. 1). Das bedeutet, 


die Einzelkomponenten (Agenten und Fließbandstufen) werden unabhängig voneinander intrinsisch 
evaluiert. Dadurch kann der Beitrag jeder Komponente zum Gesamtergebnis bemessen und optimiert 
werden. Abschließend wird das Gesamtsystem, das heißt das Zusammenspiel der Einzelkomponenten, 
in einer Ende-zu-Ende-Evaluation bemessen (siehe Kapitel 9). Um eine Evaluation durchführen 
zu können, wird eine Vergleichsgrundlage benötigt. Soll ein System evaluiert werden, das Daten 


verarbeitet, bilden Eingabedaten und erwartete Ausgaben die Vergleichsgrundlage. Eine derartige 
Datenbasis sollte mindestens die folgenden drei Kriterien erfüllen: 


1. Angemessenheit: Die Evaluationsdaten sollten (soweit wie möglich) erwartbaren Eingaben 
an das System entsprechen; das bedeutet, die Beispiele sollten realistische Eingabewerte 
widerspiegeln. 


2. Unabhängigkeit: Die Evaluationsdaten sollten unabhängig von Wissen über die innere 
Funktionsweise des Systems angelegt werden; das bedeutet, in die Beispiele sollte kein Wissen 
über verwendete Techniken einfließen. 


3. Beständigkeit: Die Evaluationsdaten sollten gemeinsam mit den zugehörigen erwarteten 
Ausgaben persistiert werden können; das bedeutet, die Datenbasis sollte unveränderlich sein, 
sodass Evaluationsergebnisse wiederholbar sind. 


Im Kontext der Computerlinguistik werden zu Evaluationszwecken Datensammlungen angelegt, 
die natürlichsprachliche Artefakte enthalten. Entweder werden vorhandene Datenquellen, wie 
Zeitschriften, Bücher oder Datensammlungen verwandter Ansätze verwendet oder es werden 
Artefakte gesammelt, beispielsweise durch Studien. Auf diese Weise bilden sich Korpora (siehe 


Abschnitt 23311 Neben der Evaluation können Korpora auch verwendet werden, um sprachliche 


Phänomene zu entdecken oder um Lösungsansätze für Problemstellungen zu entwickeln. Beides ist 
im Kontext von Prof% relevant, da Agenten teilweise Lösungen zu zuvor noch nicht betrachteten 
Problemstellungen liefern sollen. Wird ein Teil eines Korpus zur Entwicklung eines Ansatzes 
verwendet, dürfen die entsprechenden Datenpunkte nicht zur Evaluation verwendet werden, da 


andernfalls das zweite der zuvor genannten Kriterien (Unabhängigkeit) verletzt wird. 


Da mit Pro, ein System zur Programmierung mit gesprochener Sprache entsteht, sollten Korpora 
aus Artefakten bestehen, die natürlichsprachliche Beschreibungen des gewünschten Verhaltens eines 
Systems enthalten. Bestehende Korpora zur Endnutzer-Programmierung mit natürlicher Sprache 


(bzw. die enthaltenen Artefakte) sind hinsichtlich der in|Abschnitt 5.1|festgelegten Zielstellung für 


das System Prof% nicht angemessen. Einige Korpora enthalten nur sehr einfach Beschreibungen, 
wie die in Kapitel 3|vorgestellten Datensätze ATIS |Dah+94], GeoQuery |ZM96],WikiSOL |ZXS17] 
und das von Lin et al. angelegte Korpus bestehend aus Bash-Kommandos und zugehörigen natür- 


lichsprachlichen Beschreibungen [Lin+18]; die in diesen Korpora enthalten (natürlichsprachlichen) 


19 Genauer gesagt werden üblicherweise Auswahlkorpora gebildet, wobei das Auswahlkriterium meist Angemessenheit 


für das zu evaluierende System ist. 
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Artefakte bestehen aus einzelnen Anweisungen (oder sehr kurzen Anweisungsfolgen), zumeist 
ohne Kontrollstrukturen. Dasselbe gilt für das Korpus, das im Zuge der von Sales et al. erstellten 
Vergleichsaufgabe zur Endnutzer-Programmierung mit natürlicher Sprache für Association of 


Association for Computational Linguistics angelegt wurde ||SHF17]. Andere Datensammlungen 


schränken die Ausdrucksform (der natürlichsprachlichen Eingaben) ein, wie der von von Quirk 
et al. erstellte /FTTT-Datensatz, bei dem alle Beschreibungen immer mit einer Bedingung begin- 


nen [QMGI5], oder haben einen sehr geringen Umfang, wie die von Tellex et al. und Bastanelli et. 


al angelegten Korpora [Tel+11}/Bas+14]. Wieder andere haben schlicht einen anderen Fokus: Der 


HS-Datensatz von Ling et al. enthält beispielsweise textuelle Beschreibungen zu Implementierungen 
virtueller Karten (aus Kartenspielen) [/Lin+16]. Mit Ausnahme des von Bastanelli et. al angelegten 
Korpus |Bas+14]], das jedoch nicht öffentlich zugänglich ist, bestehen zudem alle genannten Korpora 


ausschließlich aus textuellen Artefakten und sind daher inhaltlich unpassend. 


Daher werden eigens für Proy,, neue Korpora angelegt, die laienhafte natürlichsprachliche 
Beschreibungen zur Programmierung eines Systems enthalten. Dadurch wird sichergestellt, dass 
die Artefakte angemessen für die Entwicklung und Evaluation des Systems sind (Kriterium 1). Die 
Artefakte werden mithilfe von Studien gesammelt; den Probanden wird lediglich die Zielstellung, nicht 
aber die Funktionsweise des (Teil-)Systems bekannt gemacht, um die Beeinflussung der Probanden zu 
minimieren (Kriterium 2). Die Sammlung der Daten erfolgt in unterschiedlichen Studien. Zum einen 
werden Laborstudien in kontrollierter Umgebung und mit einheitlicher Konfiguration durchgeführt, 
in denen Audioaufnahmen der Beschreibungen von Probanden getätigt werden (im Folgenden 
als stationäre Datensammlung bezeichnet). Zum anderen werden durch Online-Studien textuelle 
Beschreibungen gesammelt (im Folgenden als Online-Datensammlung bezeichnet). In beiden Fällen 
werden die gewonnen Daten persistiert (Kriterium 3). In den nachfolgenden Abschnitten wird 
zunächst das grundsätzliche Vorgehen für beide Datensammlungen beschrieben. Anschließend wird 
das Vorgehen für die stationäre und zuletzt für die Online-Datensammlung erläutert. 


5.5.1 Grundsätzliches Vorgehen 


Die Datensammlungen für Pro/,, werden mithilfe von Studien angelegt. Hierzu werden natürlich- 
sprachliche Anweisungen von Probanden an ein System gesammelt. Die Anweisungsbeschreibungen 
werden entweder in Textform abgeben oder es werden Audioaufnahmen gesprochener Anweisungs- 
folgen getätigt. Die Probanden sollen ihre Beschreibungen frei formulieren können und sollen 
laienhafte Alltagssprache verwenden. Auch hinsichtlich des Inhalts der Beschreibungen sollen 
die Probanden nicht eingeschränkt werden; das bedeutet, Probanden können beliebige Vorgänge 
und Zusammenhänge auf beliebigen Abstraktionsebenen beschreiben. Allerdings müssen alle 
Beschreibungen in Englisch abgeben werden (siehe [Abschnitt 5.1). 


Um derartige natürlichsprachliche Beschreibungen zu erhalten, wurden alle im Kontext von Prof, 
durchgeführten Studien wie folgt aufgebaut. Es werden Szenarien verwendet. Jedes Szenario besteht 
aus einer Situationsbeschreibung und einer Aufgabe, die ein System lösen soll. Zusätzlich veran- 
schaulichen Bilder die Ausgangssituation. Die Probanden werden aufgefordert, sich in die Situation 
zu versetzen und dem System natürlichsprachliche Anweisungen zu geben. Die Anweisungen sollen 
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das System befähigen die Aufgabe zu lösen. Das bedeutet, die Probanden können davon ausgehen, 
dass das System grundlegende Funktionen besitzt. Die Beschreibung der Probanden entsprechen 
also (im besten Fall) einer Komposition von grundlegenden Systemfunktionen zur Lösung einer 
komplexen Aufgabe. Den Probanden werden die grundlegenden Systemfunktionen nicht bekannt 
macht, sondern nur, dass es solche gibt. Durch die Verwendungen von Szenarien wird nur ein grober 
Rahmen für die Beschreibung der Probanden vorgegeben. Die Szenariobeschreibungen sind zudem 
kurz gefasst und verwenden eine einfache, nicht technische Sprache mit stark eingeschränktem 


Vokabular] Eine derartige Gestaltung der Szenarien soll den Probanden möglichst wenig vorgeben 
und ihre Beschreibungen nicht beeinflussen. Im besten Fall entstehen so frei formulierte und 
voneinander verschiedene Anweisungsbeschreibungen. Statt Szenariobeschreibungen und unter- 
stützende Bilder zu verwenden, können auch Videos eingesetzt werden. Diesen Ansatz verfolgten 
beispielsweise Tellex et al. und Landhäußer et al. [LWT17b]. Die Probanden wurden in 
diesen Studien aufgefordert, zu beschreiben, was sie sehen. Durch die Verwendung von Videos 
können viele vergleichbare Artefakte gesammelt werden. Dafür werden die Probanden inhaltlich 
eingeschränkt. Da die Probanden lediglich die Ereignisse im Video wiedergeben, entstehen keine 
kreativen Problemlösungen. Außerdem werden so auch die Funktionen des System offengelegt. 
Daher wird für die Datensammlungen im Kontext von Pro, auf den Einsatz von Videos verzichtet. 


Zur Durchführung der Studien werden konkrete Szenarien benötigt. Diese müssen für Laien leicht 
verständlich und greifbar sein. Das bedeutet, die beschriebene Situation sollte einer alltäglichen Situa- 
tion entsprechen (oder an eine solche angelehnt sein). Das muss sich zur Endnutzer-Programmierung 
eignen. Außerdem sollte auch das System den Probanden vertraut oder zumindest anschaulich 
sein. Das bedeutet auch, dass die Probanden grundlegende Funktionen des Systems erkennen bzw. 
erahnen können müssen. Unter diesen Anforderungen bietet sich die Verwendung des humanoiden 
Haushaltsroboter ARMAR-III als Zielsystem an (siehe Abschnitt 5.4.3). Bei einem humanoiden 
Roboter können sich selbst Laien vorstellen, welche Funktionalität dieser (mindestens) bietet. 


Außerdem existiert mit der für ARMAR-III modellierten Küchenumgebung auch ein anschauliches 
Szenario, in welchem das System agiert. Als Grundszenario für alle Datensammlung wird daher 
der ARMAR-III in seiner Küchenumgebung verwendet. In den konkreten Szenarien wird die 
Ausgangssituation beschrieben; das bedeutet, es wird erläutert, wie die Umgebung beschaffen ist, 
welche Umgebungsobjekte relevant sind, wo sich der Roboter befindet und welche Aufgabe er lösen 
soll. Die Szenariobeschreibungen werden jeweils durch Bilder unterstützt. Das erste Szenario der 
stationären Datensammlung (siehe [Tabelle 5.5), in dem der Roboter eine Popcorn-Packung von 
einem Tisch holen und dem Nutzer überreichen soll, wird beispielsweise wie folgt beschrieben: 


In this scene you want the robot to get you popcorn. The popcorn bag stands on the 
kitchen table among other objects. Figure 1 shows your view on the scene, with the 
robot to your left and the table on the right side. Figure 2 (a) gives an overview of the 
objects, which are placed on the table. Figure 2 (b) shows the popcorn bag in detail. 


?0 Diese Art der Aufgabenbeschreibung wurde erstmals von Miller beschrieben |Mil8 1] und später innerhalb der Studie 


von Pane et. al umgesetzt PRMOI] (siehe|Abschnitt 3.1 ). 
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Während der Studien wird den Probanden ein Studienbogen ausgehändigt?!| Dieser beinhaltet eine 
kurze Einführung über den Ablauf und die Zielsetzung der Studie. Anschließend wird den Probanden 
das allgemeine Szenario beschrieben: der Roboter und die Küchenumgebung werden vorgestellt. 
Die Probanden werden aufgefordert, sich in die Situation hineinzuversetzen. Sie sollen sich dazu 
vorstellen, dass sie sich mit dem Roboter in der Küche befinden und der Roboter auf Anweisungen 
wartet. Außerdem werden die Probanden darauf hingewiesen, dass der Roboter grundlegende 
Funktionen besitzt und die Objekte in seiner Umgebung kennt. Im Studienbogen folgen anschließend 
eines oder mehrere der zuvor beschriebenen Szenarien. Die Probanden geben für jedes Szenario 
eine Beschreibung ab. Zuletzt werden anonymisiert persönlich Daten erhoben: Probanden werden 


aufgefordert ihre Sprach- und Programmierkenntnisse anzugeben. 


Die meisten konkreten Szenarien sind so ausgelegt, dass sie die Untersuchung bestimmter sprachlicher 
Phänomene erlauben; das bedeutet, die jeweiligen Studien lassen sich einem konkreten Agenten, 
der eben dieses Phänomen analysiert, zuordnen und wurden im Zuge der Evaluation (bzw. vor der 
Entwicklung) des Agenten durchgeführt. Welche Szenarien welchen Agenten zugeordnet werden 
können, wird in den nachfolgenden Abschnitten beschrieben. Die Szenarien sind jedoch so gestaltet, 
dass sich die gesammelten Artefakte zur Evaluation aller Agenten und Fließbandstufen und auch 
zur Evaluation des Gesamtsystems eignen. Durch dieses Vorgehen, werden Korpora geschaffen, die 
sich in Teilen insbesondere zur Evaluation einzelner Agenten eignen. Gleichzeitig entsteht auf diese 
Weise sukzessive eine umfangreiche Datensammlung für die die Evaluation des Gesamtsystems 


(siehe [Kapitel 9). 


5.5.2 Stationäre Datensammlung 


Der erste Teil der Datensammlung besteht aus Audioaufnahmen von Probanden, die in einer kon- 
trollierten Umgebung aufgenommen wurden. Hierzu wurden sieben Einzelstudien über fünf Jahre 
durchgeführt. Trotz dieses langen Zeitraums wurden alle Studien unter den gleichen Rahmenbedin- 
gungen durchgeführt. Das bedeutet, zur Aufzeichnung wurde immer dasselbe Mikrophon, derselbe 
Raum und gleichartige Studienbögen, die sich lediglich in den konkreten Szenariobeschreibungen un- 
terscheiden, verwendet. Die Studien wurden von unterschiedlichen Experimentatoren durchgeführt; 
diese wurden jedoch eingewiesen, um vergleichbare Ergebnisse zu erhalter]??] Da die Aufzeichnung 
vor Ort in einem Raum unter Aufsicht eines Experimentators durchgeführt wurden, wird diese in 
Abgrenzung zur im anschließenden Abschnitt beschriebenen Online-Datensammlung als stationäre 
Datensammlung bezeichnet. Die Probanden sind allesamt freiwillige Studienteilnehmer und wurden 
mithilfe von Aushängen und über Aufrufe auf Web-Seiten und sozialen Medien rekrutiert. Die 
erste Studie wurde durchgeführt, um eine initiale Datenbasis zur Evaluation von Agenten und 
Fließbandstufen zu erhalten; die sechste dient der Erweiterung des Korpus um komplexere (und 


längere) Beschreibungen. Alle weiteren Studien wurden im Zuge der Evaluation eines der in Kapitel 7 


?! Für die Online-Datensammlung entspricht der Studienbogen aufeinanderfolgenden Web-Formularen. 


Unter anderem wurde darauf hingewiesen, Probanden nicht zu beeinflussen; das bedeutet, der Experimentator darf 
bei der Lösung der Aufgabe keine Hilfestellung geben und nur organisatorische Fragen beantworten. 


22 
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Tabelle 5.5: Zusammenhang zwischen Szenarien und Agenten-Zugehörigkeit: Die horizontalen Linien unterteilen zudem 
die einzelnen Studien. 


Sz. Name (Kurzbeschreibung) Agenten-Zugehörigkeit 
1 Popcorn vom Tisch holen (keine) 
2 Becher in Spülmaschine stellen (keine) 
3 Saft aus Kühlschrank holen (keine) 
4 Spülmaschine mit Geschirr befüllen Bed. Verzweigungen (Abschnitt 7.6.1 
5 Zutaten für Cocktail holen Bed. Verzweigungen (Abschnitt 7.6.1 
6 Becher mit Wasser füllen Sprl. Kontext (Abschnitt 7.4 
7 Essen zubereiten Sprl. Kontext (Abschnitt 7.4 
8 Wäsche machen Dialog (Abschnitt 7.10 
9 Becher holen, Nachrichten lesen Nebenläufigkeit (Abschnitt 7.6.3 
10 Spülmaschine ausräumen Schleifen (Abschnitt 7.6.4 
11 Saft holen, Kühlschrank schließen (keine) 
12 Fenster schließen, Becher füllen (keine) 
13 Becher, Saft, Fenster Disfluenzen (Abschnitt 7.1 
14 Becher füllen, Fenster schließen Disfluenzen (Abschnitt 7.1 


beschriebenen Agenten durchgeführt] Tabelle 5.5|zeigt den Zusammenhang zwischen Studien, 


Szenarien und Agenten-Zugehörigkeit. 


5.5.2.1 Durchführung 


Die Studien für die stationäre Datensammlung wurden alle folgendermaßen durchgeführt. Alle 
Sitzungen wurden in demselben Raum abgehalten. Der Raum wurde so gewählt, dass äußere 
Störfaktoren — insbesondere akustische — möglichst ausgeschlossen werden können. Während einer 
Sitzung befinden sich nur der Proband und der Experimentator in dem Raum. Zu Beginn der 
Sitzung erhält der Proband den Studienbogen und wird darauf hingewiesen, dass er zu jeder Zeit von 
der Studienteilnahme zurücktreten Kann. Der vollständige Studienbogen, wie er für die stationäre 
Datensammlung verwendet wurde, befindet sich im Anhang in|[Abschnitt C.1| Außerdem wird dem 
Probanden die Möglichkeit eingeräumt, organisatorische Fragen zu stellen (beispielsweise zum 


Ablauf der Sitzung). Anschließend unterschreibt der Proband die Einwilligung zur Datenerhebung. 
Daraufhin liest der Proband die Szenariobeschreibungen; die Studienbögen enthalten ein bis drei 
Szenarien. Eine vollständige Szenariobeschreibung mit den Anweisungen für die Probanden zum 


zweiten Szenario (Becher in Spülmaschine stellen) ist in|Abbildung 5.4|dargestellt. Den Probanden 


ist es erlaubt, zur Vorbereitung der Aufnahme Notizen anzufertigen. Sobald der Proband bereit ist, 


aufgenommen zu werden, signalisiert er dies dem Experimentator. Dieser startet die Aufnahme. 


23 Das bedeutet, diese Studien können einem Agenten zugeordnet werden. Die Agenten-Zugehörigkeit hat in einigen 


Fällen Auswirkungen auf die Gestaltung der Szenarien. Beispielsweise wurden das vierte und das fünfte Szenario so 
entworfen, dass sie eine Fallunterscheidungen enthalten, um die Verwendung von Konditionalsätzen zu provozieren. 
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Scene II: Dishwasher 


In this scene the robot should put an object in the dishwasher. This object is a green cup 
(Figure 2 (b)), located on the kitchen table (Figure 2 (a)) among other objects. Figure 1 (a) 
shows your view on the scene, with the robot to your left, the table on the right side and the 
red marked dishwasher. The opened dishwasher is displayed in Figure 2 (b). Maybe you want 
ARMAR to close the dishwasher after loading it. 

When you are ready to talk to the robot please signal the survey advisor. Your in- 
structions will be recorded via microphone. If you are not satisfied with the recording 
for any reason please contact the advisor. It is possible to rerecord or stop recor- 
ding at any time. If you want to take notes please use the last page of this document. 


(a) Kitchen (marked dishwasher) (b) Dishwasher (open) 


Figure 1: Scenery: Dishwasher 


(c) Objects on the kitchen table (d) Green cup 


Figure 2: Scenery: Dishwasher (kitchen table) 


Abbildung 5.4: Beschreibung des zweiten Szenarios (der ersten Studie). 
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Für die Aufnahmen wurde ein spezielles Mikrophon für Sprachaufnahmen verwendet”| Sofern der 
Proband dies wiinscht, kann eine Aufnahme wiederholt werden. Es werden jedoch alle Aufnahmen 
gespeichert, falls der Proband nicht explizit die Löschung einer Aufnahme verlangt. Während der 
Aufnahme beschreibt der Proband zusammenhängend seine Anweisungen an das Zielsystem. Dabei 
erhält er keinerlei Rückmeldung. Nur während der Studie zur Evaluation des Dialog-Agenten treten 
Probanden mit dem System in einen Dialog (Szenarien vier, sechs und acht). Nach Beendigung der 
Aufnahmen, wird der Proband aufgefordert, einen Fragebogen auszufüllen. Es werden anonymisiert 
persönliche Daten erhoben. Unter anderem werden folgende Informationen erfragt: 


Alter 


Geschlecht 


Muttersprache 


derzeitiger Beruf 


Englischkenntnisse (fünfstufige Selbsteinschätzung: rudimentär, grundlegend, fortgeschritten, 


versiert, verhandlungssicher) 


Programmiererfahrung (fünfstufige Selbsteinschätzung: keine, rudimentär, fortgeschritten, 


versiert, fachmdnnisch) 


Erfahrung mit Programmierparadigmen (Selbsteinschätzung mit Mehrfachauswahl: Objekt- 


orientiert, funktional, prozedural/imperativ) 


Die Beantwortung der Fragen ist freiwillig; allerdings haben alle Probanden den Fragebogen 
vollständig ausgefüllt. Nach dem Ausfüllen des Fragebogens ist die Sitzung beendet. Die Aufnahmen 
aller Probanden wurden archiviert. Zusätzlich wurde zu jeder Aufnahme manuell eine Transkription 
erstellt; das bedeutet; die Audioaufzeichnung wird vom Experimentator nach der Sitzung angehört 
und verschriftlicht. Die Transkription wurden gemäß der im Buckeye Corpus Manual festgelegten 
Regeln erstellt [Pit+05]: 


e Alles was zu hören ist, muss transkribiert werden. Es sollte genau das verschriftlicht werden, 
was gesprochen wurde. Dementsprechend sollten auch Grammatikfehler oder im Kontext 
falsch verwendete Wörter ebenso transkribiert werden. 


Es dürfen keine Satzzeichen verwendet werden. 


Groß- und Kleinschreibung von Wörtern sollte angewandt werden. 


Zahlen müssen als Zahlwörter ausgeschrieben werden. 


Hintergrundgeräusche dürfen ignoriert werden. 


Pausen im Sprechfluss sollten durch Zeilenumbrüche modelliert werden. 


Abkürzungen sollten weitestgehend vermieden werden. 


Verwendet wurde das Mikrophonemodell NTI-A des Herstellers Røde Microphones: https://rode.com/ 


microphones/nt1-a, zuletzt besucht am 24.02.2021. 
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e Kontraktionen dürfen verwendet werden. 
e Hesitationswörter wie ehm, uhm usw. sollten (einheitlich) transkribiert werden. 


e Geräusche des Sprechers sollten mithilfe von Etiketten verschriftlicht werden. 


Die Transkriptionen werden zusammen mit den Audioaufnahmen und den anonymisierten persönli- 
chen Daten in einer Datenbank aufbewahrt. Auf die Datenbank kann über folgende URL zugegriffen 


werden: https: //parse.ipd.kit.edu/, 


5.5.2.2 Analyse 


Innerhalb von sechs Einzelstudien konnten 201 Aufnahmen von 81 unterschiedlichen Probanden zu 
dreizehn unterschiedlichen Szenarien gesammelt werden. Hinzu kommen Dialogmittschnitte, die zu 
Szenario acht, sowie als zusätzliche Artefakte zu den Szenarien vier und sechs aufgezeichnet wurden. 
Die Dialoge wurden von zehn weiteren Probanden geführt, wodurch 30 zusätzliche Aufzeichnungen 
entstanden”>| Die Transkriptionen enthalten in Summe 8365 und im Durchschnitt 41,617 Worter. 


Tabelle 5.6] schliisselt die Werte pro Szenario auf. Die Werte in Klammern entsprechen den 


Dialogmittschnitten. Diese gehen nicht in die Statistik über die verwendeten Wörter ein. Die 
Verwendung von knapp 42 Wörtern pro Beschreibung deutet darauf hin, dass die Probanden zumeist 
längere Anweisungsfolgen beschreiben. Es zeigt sich zudem, dass sich dieser Wert je nach Szenarien 
deutlich unterscheidet. Während die ersten drei Szenarien einfach zu lösende Aufgaben beschreiben 
und die Lösung dadurch mit wenigen Wörtern beschrieben werden kann, sind insbesondere die 
Szenarien sechs, sieben und elf bis vierzehn deutlich komplexer. In diesen Szenarien sind mehrere 


Teilaufgaben enthalten, wodurch mehr Teilschritte und Zusammenhänge beschrieben werden müssen. 


Tabelle 5.7|zeigt ausgewählte Beispiele zu unterschiedlichen Szenarien. 


Hinsichtlich der personenbezogenen Daten ergeben sich über alle Studien hinweg folgende Verteilun- 
gen. Von 91 Teilnehmern waren 23 weiblich und 68 männlich. Die Alterspanne reicht von achtzehn 
bis 50 Jahre (zum Zeitpunkt der Studie). Das durchschnittliche Alter beträgt jedoch nur 24,7 Jahre, 
da an den Studien hauptsächlich Studenten teilgenommen haben (77). Als Muttersprache gaben 
81 Probanden Deutsch an; die übrigen zehn verteilen sich auf andere indoeuropäische Sprachen. 


Allerdings gab keiner der Teilnehmer als Muttersprache Englisch an. In [Abbildung 5.5| ist die 


Verteilung für die Englischkenntnisse der Probanden dargestellt. Da es sich um Selbsteinschätzungen 
handelt, ist die Aussagekraft natürlich beschränkt. Dies könnte auch der Grund dafür sein, dass es 
eine starke Häufung beim mittleren Kenntnisniveau (fortgeschritten) gibt. Lediglich ein Proband 


schätzte seine Englischkenntnisse als verhandlungssicher ein.|Abbildung 5.6|zeigt die angegebenen 


Programmierkenntnisse der Probanden; auch hierbei handelt es sich um Selbsteinschätzungen. 
Sechzehn Probanden gaben an, über keinerlei Programmierkenntnisse zu verfügen und weitere 22 


besitzen nur rudimentäre Fähigkeiten. Andererseits gaben auch 27 Probanden als Kenntnisstand 


versiert und elf fachmännisch an. Wie (Abbildung 5.7 zeigt, haben die meisten Probanden vor 


allem Erfahrung mit Objekt-orientieren Programmiersprachen; viele verfügen aber zusätzlich über 


> Tatsächlich bestehen die Dialogmittschnitte jeweils aus mehreren Aufzeichnungen. In einer Sitzung wurden alle 


Nutzeraussagen aufgezeichnet und die jeweilige Systemreaktion als Transkription hinterlegt. 
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Tabelle 5.6: Statistiken zur stationären Datensammlung: Je Szenario ist angegeben, wie viele Probanden Beschreibungen 
abgegeben haben und wie viele Aufnahmen getätigt wurden. Zudem sind jeweils die Gesamtanzahl und die Durchschnitts- 
werte der enthaltenen Wörter angegeben. Die Anzahl etwaiger Dialogmitschnitte sind in Klammern angegeben. 


Szenario Probanden Aufnahmen Wörter (gesamt) Wörter (durchschnittlich) 


1 22 22 318 14,5 
2 22 26 650 25,0 
3 22 23 443 19,3 
4 19 (10) 19 (10) 556 29,3 
5 19 19 611 32,2 
6 10 (10) 10 (10) 736 73,6 
7 10 11 818 74,4 
8 (10) (10) — — 
9 10 11 314 28,5 
10 10 11 319 29,0 
11 10 10 420 42,0 
12 10 10 517 51,7 
13 10 15 1271 84,7 
14 10 14 1392 99,4 
Alle 81 (91) 201 (231) 8365 41,6 
Anzahl 


0 5 10 15 20 25 30 35 40 45 50 5 
rudimentär EEE 1 
grundlegend ME :; 
fortgeschritten  :© 
versiert Ty 17 
verhandlungssicher W ı 


Abbildung 5.5: Verteilung der Englischkenntnisse der Probanden (gemäß Selbsteinschätzung). 


Kenntnisse der prozeduralen oder funktionalen Programmierung. 32 Probanden gaben an, mit allen 
Programmparadigmen dieser Auswahl vertraut zu sein; 18 machten hingegen keine Angabe. 


Da die Aufnahmen ausnahmslos von Nicht-Englisch-Muttersprachlern stammen, enthalten sie 
häufig Grammatikfehler oder eine ungewöhnliche Wortwahl (siehe das Beispiel zu Szenario neun 
in [Tabelle 5.7). Außerdem finden sich vereinzelt Versprecher, Verzögerungslaute und Korrekturen 
(siehe Beispiele zu den Szenarien zwei, sieben, zwölf und vierzehn). Hinsichtlich linguistischer 


Merkmale unterscheiden sich die Aufzeichnungen von weiblichen und männlichen Probanden nicht; 
auch die Länge und Wortwahl ist vergleichbar. Dasselbe gilt hinsichtlich der Programmiererfahrung. 
Die meisten Probanden beschreiben aus der Sicht eines (naiven) Nutzers; das bedeutet, auch 
Probanden mit großer Programmiererfahrung verwenden keine technischen Begriffe. 
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Tabelle 5.7: Exemplarische Transkriptionen der stationären Datensammlung: Die Tabelle zeigt sieben Transkriptionen, 
die zu Aufnahmen von Probanden zu unterschiedlichen Szenarien angefertigt wurden. 


Sz. Transkription 
2 uhm go to the table uhm take the green cup uhm then go to the dishwasher open the dishwasher 
uhm put the green green cup ehm in the dishwasher and close the dishwasher 
4 hey Armar could you please have a look at the table if there are dirty dishes put them in the 

dishwasher if they are clean put them in the cupboard 

go to the dishwasher then take one plate out wash this plate and then go to the fridge put the 

em meal instant meal on the plate and bring it to the mac microwave put it into the microwave 

then after it is warmed up put the ehm meal on the plate and bring the plate to the table 

robo please move to the table grab the green cup and move to the sink then please wash the 

green cup and while you wash the cup please read the news 

10 hey Armar please go to the dishwasher and open it while the dishwasher is not empty take 
another piece of dishware and store it into the cupboard 

12 open the window and ehm then close it again afterwards eh go to the dishwasher and take one 
of the cups ehm before you fill the cup with water put it on the table and before you look at the 
cup that you filled open the window again 

14 uh go to the window and open the window and then yah go to the dishwasher yah open it uh 
take the red cups which is on the first shelf and put the red cups hm on the table then close the 
dishwasher then go to the fridge and open the fridge and take the orange juice yah which is 
between water and the other juice then close the fridge yah put the uh orange juice yah on the 
table uh then fill uh fill in the red cup and the green cup hm the green cup is between Nesquik 
and cookies then go to the window and close it 


I 


O 


Anzahl 
0 5 10 15 20 25 30 
keine M | 
rudimentär ME 2° 
fortgeschritten p 15 
versiert > 
fachmännisch M |. 


Abbildung 5.6: Verteilung der Programmierkenntnisse der Probanden (gemäß Selbsteinschätzung). 


Zusammenfassend zeichnet sich die stationäre Datensammlung dadurch aus, dass die enthaltenen 
Artefakte gesprochene Audioaufnahmen sind, die in einer kontrollierten Umgebung und unter 
gleichbleibenden Bedingungen aufgezeichnet wurden. Die Beschreibungen der Probanden entstanden 
zudem auf Grundlage von 14 unterschiedlichen Szenarien; dadurch sind die Aufnahmen inhaltlich 
facettenreich. Andererseits wurden die Beschreibungen alle von Nicht-Muttersprachlern abgegeben; 
die Folge sind grammatikalisch falsche Ausdrücke oder eine ungewöhnliche Wortwahl. Zudem ist der 
Umfang mit 231 Datenpunkten zwar ausreichend, um aussagekräftige Evaluationen durchzuführen; 
die Datenbasis ist jedoch unzureichend, um auf ihrer Grundlage statistische Verfahren zur Analyse 
natürlichsprachlicher Äußerungen zu entwickeln. Um diese beiden Nachteile der stationären 
Datensammlung auszugleichen, wurde zusätzlich eine Online-Datensammlung durchgeführt. 
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Anzahl 
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 
T T T T T T T T T T T T T 


keine 18 


Objekt-orientiert 7s eas 
prozedural/imperativ [i 
—= ie | 
| | | | | | | | | | | | | | 


funktional 


Abbildung 5.7: Verteilung der Programmierparadigmen, mit denen die Probanden Erfahrung haben: Die Balkeneinfär- 
bungen geben die unterschiedlichen Wahlmöglichkeiten der Mehrfachauswahl wieder: grün = Objekt-orientiert, orange = 
prozedural, rot = Objekt-orientiert und prozedural, blau = Objekt-orientiert und funktional, sowie gelb = alle gewählt. 


5.5.3 Online-Datensammlung 


Der zweite Teil der Datensammlung besteht aus natürlichsprachlichen Artefakten, die online 


— wiederum mithilfe von Studien — gesammelt wurden [WST20a} |WST20b]. Zur Umsetzung 


einer Online-Datensammlung wurde zunächst eine Web-Seite erstellt, welche den Studienbogen 
der ersten Studie der stationären Datensammlung als Web-Formulare umsetzt [Pas15]?\ Diese 
Art der Datensammlung wurde mit vierzehn Teilnehmern erprobt; es wurden 39 zusätzliche 
Aufnahmen zu den ersten drei Szenarien gesammelt. Allerdings ist die Qualität dieser Aufnahmen 
deutlich schlechter als die der stationären Datensammlung. Die Teilnehmer verwendeten zumeist 
minderwertige Mikrophone; in einigen Fällen stören zudem Umgebungsgeräusche die Aufzeichnung. 
Daher können diese Aufnahmen zu Evaluationszwecken kaum verwendet werden2’| Aus diesem 
Grund wurden in einer weiteren Studien stattdessen textuelle Beschreibungen gesammelt. Außerdem 
wurde zunächst eine Vorstudie durchgeführt, um vorab zu prüfen, ob der Studienaufbau statthaft ist. 


Um die Reichweite der Studie zu vergrößern und vermehrt Englisch-Muttersprachler zu erreichen, 
28 


wurde zudem die Online-Plattform Prolific~°| verwendet. Die Studie umfasst vier weitere Szenarien, 


zu denen Probanden Beschreibungen erbringen sollen und wurde wiederum im Zuge der Entwicklung 
bzw. Evaluation zweier Agenten durchgeführt: dem Agenten zur Erkennung und Analyse von 


Lehrsequenzen in natürlicher Sprache (siehe Abschnitt 7.7) sowie dem Agenten zur Synthese von 


Methodendefinitionen und Skripten (siehe|Abschnitt 7.8). 


5.5.3.1 Durchführung 


Auch die Online-Datensammlung textueller Beschreibungen wird mithilfe von Studienbögen und 
Szenariobeschreibungen umgesetzt; allerdings werden Web-Formulare zur Darstellung verwendet. 
Ein Studienbogen, wie er für die Online-Datensammlung verwendet wurde, befindet sich im 
Anhang in [Abschnitt C.2] Die Web-Formulare werden über die Online-Plattform Prolific veröf- 
fentlicht, welche auf die Durchführung wissenschaftlicher Studien spezialisiert ist. Studien über 


Auf die Studie kann unter folgender URL zugegriffen werden: https: //parse.ipd.kit.edu/asrat/ 
ai In|Abschnitt 6.1|wird gezeigt, dass automatische Spracherkenner für diese Aufnahmen eine deutlich höhere Fehlerrate 
aufweisen, wodurch weiterführende Analysen negativ beeinflusst werden. 
Prolific: https ://www.prolific. co/| zuletzt besucht am 24.02.2021. 
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eine Plattform durchzuführen, bietet zwei wesentliche Vorteile: Zum einen können Teilnehmer 
über Prolific schneller und in größerer Zahl rekrutiert werden] und zum anderen nehmen mehr 
Englisch-Muttersprachler teif?] Prolific bietet die Möglichkeit vorab die Teilnehmeranzahl für 
eine Studie festzulegen und den Personenkreis, der zur Teilnahme berechtigt ist, einzuschränken. 
Nach Veröffentlichung ist die Studie freigegeben und für angemeldete Nutzer zugreifbar. Probanden 
werden nach Abschluss der Studie mit geringen Geldbeträgen entlohnt, die vom Experimentator 
festgelegt werden können. Eine Entlohnung erfolgt nur, wenn der Experimentator die Einreichung 
akzeptiert; bei Ablehnung wird wieder ein Platz geschaffen und ein anderer Proband kann an der 
Studie teilnehmen. 


Die Online-Studien sind wie folgt aufgebaut. Teilnehmer sind aufgefordert, zu einer Reihe von 
Szenarien natürlichsprachliche, textuelle Beschreibungen abzugeben. Als Szenariogrundlage dient 
wieder ARMAR-III und die zugehörige Küchenumgebung. Allerdings sind die Szenarien der Online- 
Datensammlung so gestaltet, dass die Probanden durch ihre Anweisungen dem Roboter neue 
Funktionen beibringen sollen. Folgende Szenarien wurden erstellt: 


1. Jemanden Grüßen 
2. Kaffee zubereiten 
3. Getränke servieren 


4. Einen Tisch für zwei eindecken 


Wie auch schon bei der stationären Datensammlung agieren die Teilnehmer nicht direkt mit 
dem Roboter. Stattdessen erhalten sie eine Beschreibung der Szenerie inklusive Bildern. Für die 
hier durchgeführte Studie wurden die Teilnehmer zudem darauf hingewiesen, dass eine neue 
Funktionalität üblicherweise einen Namen hat und der Roboter eine Folge von Zwischenschritten 
durchführen muss, um eine Funktionalität zu erlernen. Da die Aufgabe eine neue Funktion zu lehren 
anspruchsvoller als die der anderen Szenarien ist und außerdem während der Durchführung den 
Probanden kein Experimentator für Rückfragen zur Verfügung steht, wird ein Beispielszenario zur 


Verfügung gestellt. Abbildung 5.8|zeigt das Beispielszenario Spülmaschine anschalten (engl. start 


the dishwasher) der Online-Studie. Neben dem Beispielszenario erhalten die Studienteilnehmer 
eine kurze Einführung hinsichtlich der Rahmenbedingungen und der Zielsetzung der Studie. 


Anders als bei stationären Datensammlung werden keine Audioaufnahmen der natürlichsprachlichen 
Äußerungen getätigt. Stattdessen sind die Probanden aufgefordert schriftliche Beschreibungen 
abzugeben, dies aber möglichst spontan zu tun. Zudem werden die Probanden vorab dazu aufgefordert, 
sich in eine Gesprächssituation mit dem Roboter zu versetzen. Für die Beschreibung steht den 
Teilnehmern ein Textfeld unterhalb der Bilder in den Formularen zur Verfügung. Nachdem die 
Probanden alle Szenarien bearbeitet haben, werden sie aufgefordert zwei persönliche Fragen zu 
beantworten. Zum einen sollen sie ihre Muttersprache benennen und zum anderen, ob sie über 


Potenzielle Studienteilnehmer registrieren sich vorab und bekommen aktuell laufende Studien in einer Übersicht 
angezeigt. Derzeit sind mehr als 70000 Nutzer bei Prolific registriert (Stand: 24.02.2021) 

Prolific ist eine englischsprachige Plattform mit Firmensitz in Großbritannien. Der Großteil der registrierten Nutzer 
ist in Großbritannien oder den USA wohnhaft. 
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New skill: Start the dishwasher 
Intermediate steps: 


The dishwasher can be started by pressing the red button 
It is located in the kitchen 
It needs to be closed before starting it 


Some exemplary instructions to teach this new skill: 


e "Hi Armar, starting the dishwasher means you have to go to the dishwasher, close it and 
press the red button." 


"You have to close the dishwasher and press its red button for turning it on. That’s how you 
start the dishwasher." 


Abbildung 5.8: Beispielszenario der ersten Online-Studie: Spiilmaschine anschalten. 


Programmiererfahrung verfügen oder nicht. Prolific liefert zudem anonymisiert weitere persönliche 
Daten, wie Geschlecht, Beruf, Alter usw. Diese Angaben hinterlegen Nutzer freiwillig in ihrem 
Profil. Daher sind die Datensätze gegebenenfalls unvollständig. Um zu prüfen, ob Probanden auf 
Grundlage dieses Studienaufbaus in der Lage sind, inhaltlich sinnvolle Beschreibungen zu liefern, 
wurde zunächst eine Vorstudie mit zehn Probanden durchgeführt; verwendet wurden hierzu die 
ersten drei Szenarien. Da alle Einreichungen der Probanden aus der Vorstudie verwendbar waren, 
wurde die erste Studie für 860 Probanden mit vier Szenarien freigegeben; die Einreichungen der 
Vorstudie wurden mit in die Datensammlung aufgenommen. Der vollständige Datensatz kann über 
folgende URL abgerufen werden: http: //dx.doi.org/10.21227/zecn-6c61, 


5.5.3.2 Analyse 


Durch die Online-Studie konnten insgesamt 3470 textuelle Beschreibungen zu vier Szenarien von 
870 Probanden gesammelt werden. 302 der Beschreibungen wurden nach einer manuellen Prüfung 
entfernt?!} somit verbleiben 3168 Beschreibungen im Datensatz. [Tabelle 5.8/schliisselt die Beiträge 


3! Ausgeschlossen wurden nur Beschreibungen, die offensichtlich nicht sinnhaft sind, unter anderem aus Wikipedia 


kopierte Passagen oder Abgaben ohne inhaltlichen Bezug zur Aufgabenstellung. 
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Tabelle 5.8: Statistiken zur Online-Datensammlung: Die Tabelle gibt pro Szenario an, wie viele Probanden jeweils 
teilgenommen haben und wie viele Beschreibungen dabei entstanden sind. Zudem sind jeweils die Gesamtanzahl und die 
Durchschnittswerte der Wörter der Beschreibungen angegeben. 


Szenario Probanden Beschreibungen Wörter (gesamt) Wörter (durchschnittlich) 


1 870 795 18205 22,9 
2 870 794 26005 32,8 
3 870 794 33001 41,6 
4 860 785 31797 40,5 
Alle 870 3168 109008 34,4 


Tabelle 5.9: Exemplarische Beschreibungstexte der Online-Datensammlung: Sechs Beschreibungstexte, die von Teilneh- 
mern zu unterschiedlichen Szenarien eingereicht wurden. 


Sz. Eingereichter Beschreibungstext 


1 Look directly at the person. Wave your hand. Say ’hello’. 
2 You have to place the cup under the dispenser and press the red button to make coffee. 


2 Making coffee means you have to press the red button, put a cup underneath the hole and then 
pouring that comes out into your cup 


3 To ring a beverage, open the fridge and select one of te beverages inside, pour it into one of 
the the kitchen counter and hand the glass over to the person. 


4 collect cutlery from cupboard, bring them to the table and place down neatly 


4 To set the table for two, Go to the cupboard and take two of each; plates, glasses, knives, and 
forks. Take them to the kitchen table and set two individual places. 


je Szenario auf. Außerdem in der Tabelle aufgeführt sind die verwendeten Wörter je Szenario 
in Summe und im Durchschnitt. Mit durchschnittlich gut 34 Wörtern sind die Beschreibungen 
im Mittel etwas kürzer als die der stationären Datensammlung (ca. 42 Wörter je Beschreibung). 
Zudem zeigen sich deutliche Unterschiede zwischen den Szenarien; während die Beschreibungen 
zu Szenario eins im Mittel lediglich knapp 23 Wörter enthalten, verwendeten die Probanden zur 
Lösung von Szenario drei durchschnittlich gut 42 Wörter. Zwar sind die Aufgabenstellung ähnlich 
gestellt (lehren genau einer neuen Funktion), inhaltlich unterscheiden sie sich jedoch. Während im 


ersten Szenario das Begrüßen einer Person gelehrt werden soll, muss im dritten beschrieben werden, 


wie Getränke (im Allgemeinen) serviert werden sollen. Die Beispiele in Tabelle 5.9| zeigen, wie 


heterogen die Beschreibungen hinsichtlich Länge, Inhalt und Form sind. Außerdem enthalten die 
Beschreibungen teilweise Grammatik- oder Rechtschreibfehler (z. B. die dritte Beschreibung in der 
Tabelle). 


Die Auswertung der personenbezogenen Daten lieferte folgende Erkenntnisse. Mehr als 60% 
der Probanden gaben als Muttersprache Englisch an. Laut Profilangaben, sind ein Großteil der 
Teilnehmer Staatsbürger von Großbritannien; weitere häufig genannte Länder sind die Vereinigten 
Staaten von Amerika, Polen und Portugal. Knapp 70% der Probanden gaben an, über keinerlei 
Programmierkenntnisse zu verfügen (bei der stationären Datensammlung waren es lediglich 18%). 
Dadurch eignet sich der Online-Datensatz insbesondere zur Analyse laienhafter Beschreibungen. 
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Anzahl 


mo — mn 
15 20 25 30 35 40 45 50 55 60 65 70 75 80 
Alter 


Abbildung 5.9: Altersverteilung der Probanden der Online-Datensammlung. 


Hinsichtlich der Geschlechterverteilung der Probanden ist der Datensatz sehr ausgeglichen: 51% 
Männer und 49% Frauen. Wie Abbildung 5.9|zeigt, haben Probanden unterschiedlichen Alters an 
der Studie teilgenommen; die Spanne reicht von achtzehn bis 76 Jahren. Im Mittel betrug das Alter 


29,5 Jahre; ein Großteil der Teilnehmer war 30 Jahre oder jünger. 


Zusammenfassend lässt sich festhalten, dass der hauptsächliche Vorteile der Online-Datensammlung 
der Umfang ist. Mit geringem Aufwand können große Datenmengen gesammelt werden. Außerdem 
wurden die meisten Beschreibungen von Englisch-Muttersprachlern erstellt. Dass ein Großteil 
der Probanden über keine Programmiererfahrung verfügt, ist ein weiterer Vorteil gegenüber der 
stationären Datensammlung. Andererseits können online nur textuelle Beschreibungen gesammelt 
werden, Audioaufnahmen sind nicht praktikabel. Außerdem besteht der zweite Datensatz zwar 
aus mehr Datenpunkten, die Beschreibungen wurden aber zu weniger Szenarien abgegeben. Beide 
Datensätze haben also Vor- und Nachteile und sollten zielgerichtet verwendet werden. Daher dienen 
auch unterschiedliche Teile beider Datensätze als Grundlage zur Entwicklung und Evaluation, der 
in den nachfolgenden Kapiteln beschriebenen konkreten Fließbandstufen und Agenten für Pro/,. 
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„Ju erst das Notwendige, dann das Mögliche, 
und plötzlich schaffst du das Unmégliche. “ 


— Franz von Assisi 


Das Vorverarbeitungsfließband markiert den Beginn der Verarbeitung einer gesprochenen Äußerung 
durch Pro’. Das Ziel ist es, das Audiosignal so vorzuverarbeiten, dass die Agenten anschließend 
die Semantik der Äußerung analysieren können. Hierzu erfolgt neben der Umwandlung des 
Audiosignals in eine textuelle Wortsequenz auch bereits eine grundlegende syntaktische Analyse des 
Gesagten. Zuletzt wird aus den gewonnen Informationen ein initialer Prof; ,-Graph erzeugt, der 
als Grundlage für die weitere Verarbeitung der Äußerung durch die Agenten dient (siehe Kapitel 7). 
Für Pro/, wurden folgende Fließbandstufen entwickelt, die nacheinander durchlaufen werden: 


1. Mehrfach-Automatische-Spracherkennung (Abschnitt 6.1) 


2. Seichte Sprachverarbeitung (Abschnitt 6.2) 


3. Erkennung von Eigennamen (Abschnitt 6.3) 
4. Erkennung semantischer Rollen (Abschnitt 6.4) 
5. Grapherzeugung (Abschnitt 6.5) 


Die Fließbandstufen verwenden eine gemeinsame Datenstruktur (siehe|Abschnitt 4.2.2), die auf der 
in der ersten Stufe erzeugten textuellen Repräsentation der Einzelwörter (bzw. der Token) basiert. 


Eine sortierte Liste aller Einzelwörter repräsentiert die gesamte Äußerung. Zu Token können in 
der Datenstruktur weitere Informationen hinterlegt werden. So können die Analyseergebnisse der 
Fließbandstufen zwei bis vier gespeichert werden. Die letzte Fließbandstufe erzeugt aus der internen 
Datenstruktur des Vorverarbeitungsfließbandes den initialen Pro/,-Graphen. 


6.1 Mehrfach-Automatische-Spracherkennung 


Die erste Stufe im Vorverarbeitungsfließband von Prof, ist die Mehrfach-Automatische- 


Spracherkennung [Sch16]. Sie ist dafür zuständig das Audiosignal, welches als Eingabe dient, 


in eine Wortsequenz umzuwandeln. Die Fließbandstufe ist so entworfen, dass unterschiedliche 
Spracherkenner einfach angebunden werden können; zusätzlich können mehrere Spracherkenner 
nebenläufig ausgeführt und die Ergebnisse konsolidiert werden. 
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Die automatische Spracherkennung ist eine der Standard-Aufgaben der Computerlinguistik (siehe 
[Abschnitt 2.3.7). Dadurch, dass in den vergangenen Jahren immer mehr Daten für das Training 
der Akustik- und Sprachmodelle zur Verfügung stehen (beispielsweise durch die Sammlung von 
Nutzerdaten von virtuellen Assistenten wie Siri), Konnte die Qualität der Spracherkenner zuletzt 
stark gesteigert werden. Zugleich haben sich unterschiedliche Strömungen entwickelt, unter anderem 
proprietäre Systeme und Web-APIs mit vortrainierten Modellen, quelloffene Werkzeuge, die selbst 
trainiert werden müssen, oder solche, die es ermöglichen, vortrainierte Modelle anzupassen. Jede 
dieser Varianten bietet Vor- und Nachteile; je nach Verwendungskontext ist die Verwendung eines 
anderen Spracherkenners sinnvoll. 


Da Pro/,, in beliebigen Umgebungen eingesetzt werden können soll, muss der verwendete 
Spracherkenner austauschbar sein. Die Fließbandstufe wurde daher so entworfen, dass beliebige 
Spracherkennungssysteme registriert und verwendet werden können. Hierzu muss je Spracherkenner 
lediglich ein Adapter zum eigentlichen Spracherkenner implementiert werden | Die Vorverarbei- 
tungsstufe spezifiziert zudem eine einheitliche Konfigurationsschnittstelle für alle Spracherkenner, 
etwa um die Anzahl der auszugebenden Alternativhypothesen vorzugeben. 


Die Vorverarbeitungsstufe zur Mehrfach-Automatischen-Spracherkennung erlaubt nicht nur die 
Verwendung unterschiedlicher Spracherkennungssysteme; sie können zudem nebenläufig ausgeführt 
und die jeweiligen Ergebnisse konsolidiert werden. Dadurch können etwaige Schwächen eines 
Systems durch ein anderes ausgeglichen werden. Der Ansatz folgt dabei grundsätzlich den Arbeiten 
von Fiscus und Mangu et al. zur Konsolidierung und Optimierung von Spracherkennungsergebnis- 
sen |Fis97}|MBS00]. Für die mehrfache automatische Spracherkennung führt die Fließbandstufe 
folgende Schritte aus: 


1. Ausführung der einzelnen Spracherkennungssysteme 
2. Konsolidierung der Ergebnisse 


3. Erzeugung einer gemeinsamen Ausgabehypothese 


Im ersten Schritt wird das Audiosignal an alle registrierten Spracherkennungssysteme übergeben. 
Diese liefern jeweils mindestens eine Haupthypothese zurück, die aus einer Tokensequenz besteht. 
Die meisten Systeme geben zudem Konfidenzen je Wort (oder für die gesamte Ausgabe) an. Ebenso 
erzeugen die meisten Systeme Alternativhypothesen, die wiederum mit Konfidenzen versehen 
sein können. Gegebenenfalls enthalten die Tokensequenzen Markierungen für gefüllte Pausen] 
und Satzzeichen. Die Satzzeichen — sofern vorhanden — werden entfernt, da sich zeigt, dass eine 
fehlerhafte Interpunktion spätere Analysen stärker negativ beeinflusst als korrekte Satzzeichen 
positive Effekte erzeugen | Die Markierungen für gefüllte Pausen werden hingegen beibehalten, da 
diese die Analyse von Disfluenzen erleichtern (siehe[Abschnitt 7.1). 


Dadurch wäre es auch möglich, eigens trainierte Spracherkenner zu verwenden. Der Umfang des in| Abschnitt 5.5.2 
beschriebenen Korpus ist jedoch nicht ausreichend, um sinnvolle Modelle zu erzeugen. 

Beispielsweise verwendet das Spracherkennungssystem IBM Watson das spezielle Token %HESITATION, um 
Verzögerungslaute wie uhm oder ehm zu markieren. 

Stattdessen werden in der Vorverarbeitungsstufe zur seichten Sprachverarbeitung einzelne Instruktionen erkannt 


(siehe| Abschnitt 6.2). 


N 
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6.1 Mehrfach-Automatische-Spracherkennung 


Die erzeugten Hypothesen aller Systeme werden anschließend konsolidiert. Hierzu wird, wie von 


Mangu et al. beschrieben [MBS00], ein Konfusionsnetzwerk (engl. confusion network) verwendet"| 


Das Konfusionsnetzwerk wird wie folgt aufgebaut. Knoten werden verwendet, um den Beginn, 
das Ende und die Zwischenräume zwischen den einzelnen Wörtern (bzw. Token) zu markieren. 


Die eigentlichen Worthypothesen samt Konfidenzen?| bilden die Kanten zwischen den Knoten. 
Stimmen Worter mehrerer Hypothesen an derselben Stelle tiberein, werden diese zusammengefasst 
und nur eine Kante erzeugt; für die zugehörige Konfidenz wird das Maximum der Einzelworthy- 
pothesen verwendet. Unterscheiden sich die Hypothesen hinsichtlich der Wortanzahl, werden an 
den entsprechenden Stellen im Netzwerk Leer-Kanten eingefügt] Durch die Verwendungen von 
Konfusionsnetzwerken können Hypothesen verschiedener System konsolidiert werden; gleichzeitig 
wird die Reihenfolge der Token innerhalb der Sequenz gewahrt, auch Konfidenzen und Leerstellen 
können so dargestellt werden. Jeder Pfad durch das Netzwerk stellt eine mögliche Ausgabehypothese 
(als Tokensequenz) dar. Um die Weiterverarbeitung der konsolidierten Hypothesen zu vereinfa- 
chen, können die Netzwerke optional vereinfacht werden. Zum einen können die Lemmata der 


Einzelwörter bestimmt’| und bei Übereinstimmung zusammengefasst werden (beispielsweise können 
going und gone auf die Grundform go zurückgeführt werden). Werden Wörter auf diese Weise 
zusammengefasst, wird entweder die durchschnittliche oder höchste Konfidenz als neue Konfidenz 
verwende] Zum anderen können Worthypothesen verschmolzen werden, falls die Einzelwörter in 
WordNet im selben Synset auftreten (bspw. sind dish washer und dishwasher beide Bestandteil des 
Synsets [dishwasher, dish washer, dishwashing machine]?|) Beide Optimierungen erzeugen jedoch 
gegebenenfalls einen Informationsverlust, weshalb sie in der Standardkonfiguration nicht verwendet 


werden !0] 


Aus dem Konfusionsnetzwerk können anschließend die Haupthypothese und gegebenenfalls Al- 
ternativhypothesen erzeugt werden. Zur Erzeugung der Haupthypothese wird der Pfad durch das 
Netzwerk gewählt, der die höchste Gesamtkonfidenz ergibt. Dadurch wird eine Ausgabehypothese 
erzeugt, die aus Bestandteilen der Hypothesen der unterschiedlichen Spracherkennungssysteme 
zusammengesetzt ist. Zusätzlich werden anstelle aller Alternativhypothesen die Alternativen je 
Wort, die sich jeweils aus den alternativen Kanten ergeben, abgelegt. 


Ein Konfusionsnetzwerk ist ein gerichteter azyklischer Graph mit den zusätzlichen Eigenschaften, dass es jeweils 
genau einen Quell- und einen Senkenknoten gibt und alle Pfade vom Quell- zum Senkenknoten alle anderen Knoten 
durchlaufen |BBRO1]. Konfusionsnetzwerke werden zur kombinierten Darstellung mehrere Alternativen verwendet, 
vor allem zur Darstellung von Wortalternativen bei der Spracherkennung und maschinellen Übersetzung. Wörter 
werden hierzu als Knoten repräsentiert und durch die Kanten die alternativen Wortfolgen modelliert. Konfidenzen 
einzelner Alternativen werden als Kantengewichte dargestellt. 


Die Konfidenzen werden auf den Wertebereich [0; 1] transformiert. 

Hypothesen können sich hinsichtlich ihrer Länge unterscheiden, falls Spracherkennungssysteme für Teile einer Eingabe 

keine Hypothese erzeugen oder indem zusammengesetzte Wörter gebildet bzw. geteilt werden, wie beispielsweise 

dishwasher und dish washer. 

Zur Bestimmung der Lemmata wird der Wortartmarkierer (engl. PoS tagger) der Stanford University verwendet: 

https ://nlp.stanford.edu/software/tagger .shtm1, zuletzt besucht am 24.02.2021. 

Ob der Durchschnitt oder das Maximum verwendet wird, kann konfiguriert werden, standardmäßig wird jedoch das 

Maximum verwendet. 

zugehoriges WordNet-Synset: http://wordnetweb.princeton.edu/perl/webwn?s=dishwasher&sub= 

® Search+WordNet&02=&00=1&08=1&01=1&07=&05=&09=&06=&03=&04=&h=, zuletzt besucht am 24.02.2021. 
Darüber hinaus erzeugen diese Optimierungen zusätzlichen Rechenaufwand, der sich nur bei großen Netzwerken 

durch einen verringerten Aufwand zur Erzeugung der Ausgabehypothese amortisiert. 
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In diesem Beispiel soll die Erzeugung eines Konfusionsnetzwerks aus zwei Hypothesen 
demonstriert werden. Das Beispiel verwendet zwei synthetische Hypothesen, die jeweils durch 
ein hypothetisches Spracherkennungssystem erzeugt wurden. 


Natürlichsprachliche Sequenz 
go to the dishwasher 
Hypothesen der Spracherkennungssysteme 


Spracherkennungssystem A: 8007 tOo, theo» disho7 washero, 
Spracherkennungssystem B: gonea tw0o5 theos dishwashers 


Konfusionsnetzwerk 


go (0,7) to (0,9) dish (0,7) washer (0,7) 


CD 


gone (0,4) two (0,5) <leer> (0,9) dishwasher (0,9) 


Erläuterung 


Das Konfusionsnetzwerk wird erzeugt, indem für jede Worthypothese eine Kante samt 
Konfidenz erzeugt wird. Im Beispiel unterscheiden sich die Hypothesen in den ersten beiden 
Wörtern, weshalb je zwei Kanten erstellt werden. Beim dritten Wort (the) stimmen sie überein. 
Folglich wird nur eine Kante erzeugt und die höhere der beiden Konfidenzen verwendet. 
Anschließend beinhaltet eine der Hypothesen die Wörter dish und washer, während die andere 
beide Wörter zusammenfasst. Dementsprechend wird als Repräsentation der zweiten eine 
leere Kante parallel zur dish-Kante erzeugt und die Konfidenz des nachfolgenden Wortes 
übernommen. Für dieses Beispiel ergeben sich sechzehn mögliche Pfade durch das Netzwerk 
und damit ebenso viel potenzielle Ausgabehypothesen. Werden die beiden zuvor beschriebenen 
Optimierungen auf das Beispielnetzwerk angewandt, ergeben sich die folgende Änderungen. 
Da go und gone dasselbe Lemma (go) besitzen, würden diese Kanten zusammengelegt. Ebenso 
könnten die Kanten dish und washer verschmolzen werden, da diese Bestandteil desselben 
WordNet-Synsets wie dishwasher sind. In diesem Fall würde das Ergebnis der Verschmelzung 
zusätzlich mit den alternativen Kanten im Netzwerk zusammen fallen. Das resultierende 


Netzwerk würde dann nur noch zwei mögliche Pfade zulassen: die Alternativen fo und two. 
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6.1 Mehrfach-Automatische-Spracherkennung 


Tabelle 6.1: Evaluationsergebnisse verschiedener Systeme zur automatischen Spracherkennung: Als Datengrundlage 
wurde ein Korpus verwendet, das aus den 151 Sprachaufnahmen der stationären Datensammlung zu den Szenarien eins 
bis fünf besteht. Die Ergebnisse in Klammern entsprechen den Werten, die erzielt werden, wenn die 39 Aufnahmen zu 
den Szenarien eins bis drei, die mit unbekannten Mikrofonen und in unbekannten Umgebungen aufgenommen wurden, 
ausgeschlossen werden. 


Konfiguration WER TERp BLEU-4 
Google 0,296 (0,289) 0,295 (0,289) 0,602 (0,611) 
Google* 0,189 (0,176) 0,189 (0,176) 0,693 (0,708) 
IBM Watson 0,273 (0,257) 0,272 (0,255) 0,606 (0,614) 


G+W-Konfusionsnetzwerk 0,208 (0,184) 0,207 (0,184) 0,670 (0,695) 


Für Prof; wurden Adapter zu den Web-APIs von Google Speech API" und IBM Watson? erstellt. 
Die Qualität der beiden Spracherkennungssysteme wurde anhand eines Teils des Pro/,,-Korpus 


bemessen. Zusätzlich wurde evaluiert, ob die Ergebnisse durch die Konsolidierung der Hypothesen 
beider Systeme positiv beeinflusst werden. Als Datengrundlage dienen die 151 Sprachaufnahmen 


der stationären Datensammlung zu den Szenarien eins bis fünf sowie die zugehörigen händischen 


Transkriptionen als Vergleichsgrundlage (siehe|Abschnitt 5 333] Bewertet werden ausschließlich 


die Haupthypothesen, die von Spracherkennungssystemen (bzw. dem Konfusionsnetzwerk) erzeugt 
werden. Als Metriken dienen die Wortfehlerrate (kurz WER, siehe Abschnitt 2.4.6), die erweiterte 


Übersetzungsänderungsrate (kurz TERp, siehe| Abschnitt 2.4.8), sowie die BLEU-4-Metrik (siehe 
Abschnitt 2.4.7). Die Ergebnisse sind in 'Tabelle 6.1| aufgeführt; in Klammern sind zudem die 


jeweiligen Werte angegeben, wenn die 39 Aufnahmen zu den Szenarien eins bis drei, die mit 
unbekannten Mikrofonen und in unbekannten Umgebungen aufgenommen wurden, ausgeschlossen 
werden (siehe|Abschnitt 5.5.3). Die Web-API von Google liefert kein Ergebnis, falls die Hypothese 
zu unsicher ist; folglich werden diese Aufnahmen als fehlerhaft betrachtet. Schließt man diese 


Aufnahmen aus der Bewertung aus, ergeben sich die in der dritten Zeile der Tabelle mit einem Stern 
markierten Ergebnisse. 


Die Wortfehlerraten der beiden Spracherkenner liegen bei 29,6% (Google) bzw. 27,3% (IBM 
Watson). Das bedeutet, das etwa jedes dritte bis vierte Wort falsch erkannt wird. Da die Werte für die 
Wortfehlerrate und die erweiterte Übersetzungsänderungsrate nahezu identisch sind, handelt es sich 
bei dem Großteil der Fehler zudem um solche, die die Semantik verändern] Folglich könnte sich 
im Schnitt innerhalb jeder Anweisung mindestens ein falsches Wort befinden. Die BLEU-Metrik 
zeigt jedoch, dass beide Spracherkennungssysteme mehr als 61% korrekte Quadrigramme (4- 
Gramme) erzeugen. Die Ergebnisse können also insgesamt so gedeutet werden, dass Wortsequenzen 
häufig entweder komplett richtig oder mit vielen Wortfehlern erkannt werden. Auch die deutlich 
besseren Ergebnisse des Spracherkennungssystems falls unsichere Hypothesen aus der Bewertung 


I Google Speech API: https: //cloud. google. com/speech-to-text, zuletzt besucht am 24.02.2021. 

12 IBM Watson Speech-to-Text: https: //www.ibm.com/cloud/watson-spee ch-to-text, zuletzt besucht am 
24.02.2021. 

Unter den Aufnahmen zu den Szenarien eins bis drei sind auch solche, die mit unbekanntem Mikrofon aufgenommen 
wurden und daher eine schlechtere Gesamtqualität aufweisen. 

Wortfehler, die die Semantik nicht ändern, wie die Verwendung einer anderen Wortform, werden von TERp nicht als 
Fehler gewertet. Würden viele dieser Fehler auftreten, müsste der TERp- niedriger als der WER-Wert sein. 
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ausgeschlossen werden (Google*), spricht für diese Deutung. Dieses Resultat ist insofern positiv, 
als dass nachfolgenden Analysen größtenteils auf vollständig korrekten Anweisungen durchgeführt 
werden können. Die Konsolidierung der Ergebnisse mithilfe von Konfusionsnetzwerken verbessert 
die Ergebnisse. Die Wortfehlerrate sinkt auf 20,8%, eine relative Verbesserung gegenüber der 
Spracherkennungssystem von Google um 29,7% und gegenüber JBM Watson um 23,8%. Auch der 
BLEU-4-Wert steigt auf 0,670. 


Trotz dieser deutlichen Verbesserungen sind die Ergebnisse nicht zufriedenstellend. Da die automa- 
tische Spracherkennung den Beginn der Verarbeitung markiert und somit alle weiteren Analysen 
davon abhängen, müssen Fehler möglichst vermieden werden. Bei der Bewertung der Ergebnisse 
muss jedoch beachtet werden, dass sämtliche Aufnahmen von Nicht-Muttersprachlern stammen 
(siehe Abschnitt 5.5.2). Die Aussprache von Nicht-Muttersprachler unterscheidet sich häufig von 
der (korrekten) Aussprache von Muttersprachlern, wodurch das Akustik-Modell des Spracherken- 


nungssystem Wörter schlechter erkennt. Auch das Sprach-Modell ist auf Muttersprachler angepasst 
und kann durch ungewöhnliche (gegebenenfalls grammatikalische falsche) Wortfolgen, wie sie 
Nicht-Muttersprachler mitunter verwenden, wahrscheinliche Wortfolgen weniger gut bestimmen. Die 
Ergebnisse zeigen auch, dass die Spracherkennung von guten Aufnahmebedingungen (kontrollierte 
Umgebung und professionelles Mikrofon) profitiert. Dies wird deutlich, wenn man die Werte 
betrachtet bei denen Aufnahmen aus unbekannten Umgebungen, die mit unbekannten Mikrofonen 


aufgezeichnet wurden, ausgeschlossen werden (Ergebnisse in Klammern E Auch wenn perfekte 
Bedingung in realistischen Umgebungen nicht gewährleistet werden können, zeigt sich, dass eine 
Optimierung der äußeren Gegebenheiten gewinnbringend sein kann. Da Wortfehler weiterführende 
Analyseergebnisse deutlich beeinflussen können, der Einfluss sprachlicher Unterschiede zwischen 
Muttersprachlern und Nicht-Muttersprachlern nicht quantifiziert werden kann und Proj, die 
Einbindung neuer (gegebenenfalls besserer) Spracherkennungssysteme jederzeit ermöglicht, werden 
im Folgenden — wenn nicht anders angegeben — die händischen Transkriptionen des Proy,,,-Korpus 
verwendet!®| Nichtsdestotrotz sind sowohl die Fließbandstufen als auch die Agenten so entworfen, 
dass ihre Analysen robust gegenüber (stückweise) fehlerhaften Transkriptionen sind. 


6.2 Seichte Sprachverarbeitung 


Innerhalb der zweiten Fließbandstufe von Proy,, erfolgt eine leichtgewichtige lexikalische und 


syntaktische Analyse der zuvor generierten Tokensequenz, die sogenannte seichte Sprachverarbei- 


tung |Koc15]. Es werden ausschließlich Analysen durchgeführt, die für Transkriptionen gesprochener 


Sprache geeignet sind, also solche, die unter anderem robust gegenüber Wort- und Grammatikfehlern 


Zusätzlich zu den Aufnahmebedingungen unterscheiden sich auch die Sprecher. Die Ergebnisse sind damit nur 
bedingt vergleichbar (der Einfluss der Sprecher auf die Ausnahme wurde als Einflussfaktor nicht kontrolliert). Damit 
ist die Folgerung nur als Tendenz zu verstehen, die keinesfalls allgemeingiiltig ist. 

16 Wie in| Abschnitt 5.5.2. 1]beschrieben, stellen die Transkriptionen eine unbearbeitete Verschriftlichung der gesproche- 
nen Äußerungen dar. Dementsprechend enthalten diese potenziell Disfluenzen, wie Hesitationswörter, Korrekturen 
etc., Grammatikfehler oder unübliche Formulierungen; außerdem fehlt die Interpunktion gänzlich. Folglich ergeben 
sich bei der Verarbeitung händischer Transkriptionen sämtliche Herausforderungen gesprochener Sprache (siehe 


Abschnitt 2.3.12) mit Ausnahme etwaiger Wortfehlerkennung durch ein System zur automatischen Spracherkennung. 
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6.2 Seichte Sprachverarbeitung 


sind. Hierzu zählen die Bestimmung von Wortarten (siehe|Abschnitt 2.3.4.3), von Lemmata (siehe 
Abschnitt 2.3.4.4), von syntaktischen Abschnitten (engl. chunks) und von Instruktionen ”| 


Während die ersten beiden Standardstufen üblicher Sprachverarbeitungsfließbänder darstellen (siehe 
Abschnitt 2.3.4), handelt es sich bei der Bestimmung der syntaktischen Abschnitte (in der Folge als 
Chunks bezeichnet) und der Instruktionen um angepasste syntaktische Analysen. Chunks werden 


anstelle von Syntaxbäumen oder Abhängigkeitsgraphen erzeugt. Diese beiden Darstellungsformen 
der Syntax werden durch Verfahren erzeugt, die auf Zeitungstexten (oder ähnlichem) trainiert wurden 
und daher sensibel gegenüber Wortfehlern und ungrammatikalischen Äußerungen sind. Außerdem 
werden beide je Satz aufgebaut. Transkriptionen gesprochene Sprache verfügen jedoch über keinerlei 
Interpunktion. Damit sind beide Darstellungsformen für gesprochene Sprache ungeeignet. Chunks 
können hingegen aus partiellen Zerteilungen (engl. partial parsing) erzeugt werden. Diese benötigen 
zur Generierung lediglich stückweise Wortart-Sequenzen. Die Chunks unterteilen eine Äußerung 


in syntaktische Abschnitte, das heißt Nominal-, Verbal-, Adverbialphrasen und so weiter |Abn92]. 


Damit entsprechen die Chunks in etwa den untersten (Nicht-Blatt-)Knoten eines Syntaxbaums. 
Chunks geben somit zwar weniger syntaktische Informationen als andere Darstellungsformen wieder, 
sind dafür jedoch auch für Transkriptionen gesprochener Sprache geeignet. Die Bestimmung von 
Instruktionen dient als Ersatz für die fehlende Satztrennung. Das verwendete Verfahren ist eine 
Eigenentwicklung, die anhand von Heuristiken die Tokensequenz in Abschnitte untergliedert, die je 
genau eine Instruktion (bzw. Aktion, Ereignis oder Aussage) enthalten. Die Heuristiken verwenden 
Chunk- und Wortartmuster. Näheres hierzu folgt am Ende des Abschnitts. 


Der erste Schritt während der seichten Sprachverarbeitung ist die Analyse der Wortarten der 
Tokensequenz. Hierzu wird ein Standardwerkzeug verwendet. Um das am besten geeignete zu 
bestimmen, wurden zufällig vierzehn Transkriptionen zu den Szenarien eins bis drei des stationären 


Pro/,-Korpus gezogen!*|(siehe Abschnitt 5.5.2) und für diese Muster-Wortartetiketten erstellt. 


Anhand dieses Goldstandards konnte die Qualität verschiedener Werkzeuge für Pro/,-typische 
Äußerungen bestimmt werden. Vermessen wurden die folgenden Werkzeuge: 


Das Wortart-Erkennungs-Modul der Bibliothek Apache OpenNLP'?) (kurz OpenNLP) 


Das Illinois-Wortart-Erkennungssystem der Cognitive Computation Group der University of 


Pennsylvania |RZ98] (kurz Illinois) 


Das Wortart-Erkennungssystem der Natural Language Processing Group der Stanford 
University |TMOO} Tou+03] (kurz Stanford) 


Das Wortart-Erkennungs-Modul aus der Software-Sammlung NLPAJO (kurz NLP4J) 


Das MBSP-Wortart-Erkennungssystem der University of Antwerp |DVD10] (kurz MBSP) 


Die Wortart-Informationen des Sprachverarbeitungssystems SENNA [Col+11] (kurz SENNA) 


Diese vier Analyseschritte werden in einer Fließbandstufe (statt in vier) durchgeführt, da sie stark voneinander 
abhängen und gemeinsam die Grundlage für alle weiteren syntaktischen und semantischen Analysen bilden. 

Die vierzehn Transkriptionen enthalten in Summe 468 Wörter, im Durchschnitt also 33,43. 

19 Apache OpenNLP: https: //opennlp.apache.org/, zuletzt besucht am 24.02.2021. 

0 NLP4J: https://emorynlp.github.io/nlp4j/, zuletzt besucht am 24.02.2021. 
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Tabelle 6.2: Durch verschiedene Werkzeuge zur Wortarterkennung erzielte Genauigkeiten: Als Datengrundlage für den 
Vergleich wurden vierzehn Transkriptionen aus dem Prof, ,-Korpus verwendet. Die mit einem Stern gekennzeichnete 
Spalte listet die Ergebnisse, die erzielt werden, wenn die unterschiedlichen morphologischen Formen von Verben 
zusammengefasst werden. 


System Genauigkeit Genauigkeit* 


OpenNLP 0,902 0,934 
Illinois 0,848 0,910 
Stanford 0,904 0,938 
NLP4J 0,908 0,923 
MBSP 0,844 0,908 
SENNA 0,895 0,949 


Die Ergebnisse sind in Tabelle|Tabelle 6.2) aufgefiihrt. Bestimmt wurde jeweils die Genauigkeit. 


Da einige Wortart-Erkennungssysteme Probleme bei der Unterscheidung der genauen Verbform 
aufwiesen] wurden zusätzlich die Genauigkeiten ohne Beachtung der genauen Verbform bestimmt 
(Spalte Genauigkeit”). Abgesehen von Illinois und MBSP erzielen alle System eine Genauigkeit von 
ca 90%. Wird die genaue Verbform nicht betrachtet zeigt SENNA das mit Abstand beste Ergebnis 
(0,949), gefolgt von Stanford (0,938) und OpenNLP (0,934). Daher wird für Pro, SENNA zur 
Erkennung der Wortarten verwendet. Zusätzlich ist es möglich, auch Stanford auszuführen und die 
Ergebnisse zusammenzuführen (Die Standardkonfiguration sieht die Verwendung beider Werkzeuge 
vor). Die Kombination betrachtet ausschließlich Verben. Beide Werkzeuge weisen auch abseits 
der genauen morphologischen Form Probleme bei der Erkennung von Verben auf; häufig werden 
Verben fälschlich als Adjektive oder Nomen markiert, allerdings nicht übereinstimmend durch beide 


Werkzeuge??| Daher werden die Ergebnisse von SENNA und Stanford zusammengeführt, indem eine 
Verbform etikettiert wird, falls mindestens einer der beiden ein Verb für das entsprechende Token 
erkannt hat. Anschließend werden die Grundformen der Wörter, das heißt, die Lemmata, bestimmt. 


Hierzu wird das Werkzeug Stanford verwendet] Dieses erzeugt die Lemmata als Nebenprodukt 
der Wortart-Etiketten. 


Im dritten Schritt erzeugt die Fließbandstufe Chunks. Hierzu wurden erneut Standardwerkzeuge 
vermessen. Zum einen das bereits zur Erkennung der Wortarten verwendete OpenNLP und zum 
anderen das Werkzeug BIOS] Beide erwarten als Eingabe eine Sequenz von Wortart-Etiketten und 
emittieren je Wort eine Chunk-Etikette. Da die Chunks syntaktische Abschnitte darstellen, wird das 
JOB-Format zur Kennzeichnung zusammenhängender Sequenzen verwendet (siehe [Abschnitt 2.3.6). 


?! Das bedeutet, es konnte zwar bestimmt werden, dass es sich um ein Verb handelt, die genaue morphologische 


Form konnte jedoch nicht bestimmt werden. Beispielsweise wurden häufig die Grundform (Etikette VB) und die 
Präsensform der ersten und zweiten Person (Etikette VBP) vertauscht. Beide sind im Englischen meist identisch, 
weshalb es sich gegebenenfalls zwar um eine fehlerhafte Erkennung handelt, diese jedoch kaum ins Gewicht fällt. 
Die Probleme bei der Erkennung von Verben können möglicherweise auf die fehlende Interpunktion und die häufige 
Verwendung des Imperativs in den Transkriptionen zurückgeführt werden. 

Da es sich bei der Bestimmung der Lemmata um eine vergleichsweise einfache Aufgabe handelt, ist ein Vergleich 
der verfügbaren Werkzeuge nicht nötig. 


4 BIOS: http://www.talp.upc.edu/content/tools/bios-suite-syntactico-semantic-analyzers- 
english-includes-smart-tokenization-pos, zuletzt besucht am 24.02.2021. 
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Tabelle 6.3: Durch die Werkzeuge OpenNLP und BIOS bei der Erzeugung von Chunk-Etiketten erzielte Genauigkeiten: 
Als Datengrundlage für den Vergleich wurden vierzehn Transkriptionen aus der stationären Datensammlung verwendet. 
System Genauigkeit 
OpenNLP 0,931 
BIOS 0,987 


Für die Phrase the green cup würden somit folgende Etiketten emittiert werden: B-NP, I-NP und I-NP. 
Eine vollständige Liste des Etikettensatzes für Chunks befindet sich im Anhang in/Abschnitt A2] Zur 
Vermessung der Werkzeuge wurden dieselben vierzehn Texte wie zuvor verwendet und wiederum 


Musterlösungen für die Chunks erstellt; als Metrik dient die Genauigkeit. Die Ergebnisse der 
Vermessung sind in Tabelle 6.3/aufgefiihrt. Die Genauigkeit von BIOS übertrifft die von OpenNLP 
um 5,6 Prozentpunkte. Daher wird für Pro/,, BIOS zur Erzeugung von Chunks verwendet. 


Im letzten Schritt werden einzelne Instruktionen innerhalb von Äußerungen erkannt. Dabei sollen 
zusammenhänge Aktionen gemeinsam mit abhängigen Entitäten und Modifikatoren Teil einer 
Instruktion sein, wie in folgendem Beispiel: hey Robo | take the cup | and hand it over to me. Als 
Markierung dienen fortlaufende Nummern, die je Wort erzeugt werden. Da für diese Aufgabe 
bisher keine bekannten Ansätze existieren, wurde eine heuristikbasierte Lösung entwickelt. Diese 
verwendet Muster bestehend aus Chunks, Wortarten und Signalwörtern >] um die Äußerungen in 
Abschnitte zu teilen. Der Ansatz basiert auf der Annahme, dass Äußerungen im Kontext von Prof, 
im Wesentlichen aus einer Aneinanderreihung von Anweisungen an ein System bestehen. Derartige 
Formulierungen erfordern üblicherweise die Verwendung des Imperativs. Da Imperativsätze mit 
einer Verbalphrase beginnen, sieht die Heuristik grundlegend vor, die Äußerungen zu Beginn 
einer jeden Verbalphrase (Chunk-Etikett B-VP) zu teilen. Darüber hinaus gibt es eine Vielzahl 
von Ausnahmeregeln, unter anderem für erweiterte Infinitive, Neben- oder Konditionalsätze und 
Modifikatoren. Für die Instruktionserkennung können zwei Modi konfiguriert werden. Der erste, 
konservative Modus, erzeugt kurze Instruktionen und verwendet wenige Ausnahmeregelungen. 
Mithilfe des zweiten, erweiterten Modus, können dank der Verwendung aller Ausnahmeregelungen 
längere Instruktionen erkannt werden} dies geht gegebenenfalls zulasten der Präzision. 


Die Qualität der Analysen der Fließbandstufe zur seichten Sprachverarbeitung wurde anhand von 
zwanzig zufällig gezogenen Transkriptionen zu den Szenarien eins bis drei des stationären Korpus 


bestimmt (siehe[| Abschnitt 5.5 2 Je Transkription wurden Musterlösungen für die Etiketten erstellt, 


wobei die Lemmata ausgelassen und dementsprechend auch nicht evaluiert werden. Bemessen wurde 
jeweils die Genauigkeit, wobei zu beachten ist, dass (anders als bei der Auswahl der Werkzeuge) 
die aufeinander folgenden Schritte jeweils die emittierten Etiketten verwenden. Das bedeutet, die 
Chunks werden anhand der zuvor bestimmten Wortart-Etiketten generiert und die Erzeugung 
der Instruktionsnummern verwendet sowohl die generierten Chunk- als auch Wortart-Etiketten; 


potenziell können sich somit Fehler fortpflanzen. Die Fließbandstufe wurde in zwei Varianten 


> Signalwörter können gruppiert nach ihrer Funktion konfiguriert werden. 


Die Standardkonfiguration der Fließbandstufe sieht die Verwendung des erweiterten Modus vor. 
Dabei wurde sichergestellt, dass keine der vierzehn Transkriptionen, die als Vergleichsgrundlage bei der Wahl der 
einzelnen Werkzeuge gedient haben, wiederverwendet werden. 
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Tabelle 6.4: Durch die Fließbandstufe zur seichten Sprachverarbeitung bei der Erkennung von Wortarten, Chunks und 
Instruktionen erzielte Genauigkeiten. 


Konfiguration Wortarten Chunks Instruktionen 
SENNA - BIOS - Instruktionen 0,937 0,911 0,952 
SENNA und Stanford — BIOS - Instruktionen 0,957 0,930 0,990 


evaluiert: zur Wortarterkennung werden entweder SENNA und Stanford verwendet oder nur SENNA. 
Die Ergebnisse für beide sind in |Tabelle 6.4] aufgeführt. Insgesamt erzielt die Fließbandstufe 
durchgängig Genauigkeitswerte über 90%; dabei kommt es zu keinen starken Fehlerfortpflanzungen. 


Stattdessen werden die besten Genauigkeiten für die Bestimmung der Instruktionen erreicht. Die 
zweite Konfiguration, die zur Wortarterkennung die kombinierten Ergebnisse von SENNA und 
Stanford verwendet, übertrifft die erste deutlich. Die Genauigkeit der Wortarterkennung steigt um 
zwei Prozentpunkte. Dadurch verbessert sich auch die Bestimmung der Chunks um ebenfalls knapp 
zwei Prozentpunkte. Die Instruktionserkennung profitiert noch stärker, die Genauigkeit steigert sich 
auf 99%. Die Ergebnisse zeigen, dass mit der Fließbandstufe zur seichten Sprachverarbeitung eine 
gute Grundlage für die weiteren Analysen der Sprache durch Pro, gelegt werden kann. 


In diesem Beispiel soll demonstriert werden, welche Informationen durch die seichte Sprach- 
verarbeitung erzeugt werden. Das Beispiel zeigt, welche Etiketten je Wort emittiert werden; 
Wortart-Etiketten sind grün hervorgehoben, Lemmata orange, Chunk-Etiketten rot und Instruk- 
tionsnummern blau. 


Natürlichsprachliche Sequenz 
place the orange juice back on the table then go to the window 


Durch die seichte Sprachverarbeitung erzeugte Etiketten 


place | the | orange | juice | back the | table | then window 


DT NN 


window 


I-NP 


1 


Erläuterung 


Je Wort werden vier Etiketten erzeugt. Phrasen, wie the orange juice, werden durch Chunk- 


Etiketten im JOB-Format markiert. Auch die Instruktionsnummern bilden Wortsequenzen; 


das Beispiel wird in zwei Einzelinstruktionen unterteilt. 
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6.3 Erkennung von Eigennamen 


Die Erkennung von Eigennamen ist eine der Standardaufgaben der Computerlinguistik und daher 
auch Teil üblicher Computerlinguistik-Fließbänder (siehe[Abschnitt 2.3.4.5). Im Kontext von Proy, 
ist die Erkennung von Eigennamen hauptsächlich für den späteren Aufbau des situativen Kontexts 
von Interesse (siehe|Abschnitt 7.4). 


Da für die Erkennung von Eigennamen weder durch die Fokussierung auf gesprochene Sprache noch 
durch die Zielsetzung der Programmierung besondere Anforderungen entstehen, kann eine bereits 
vorhandene Implementierung verwendet werden. Für Pro/, wird, wie auch für die Erkennung der 
Wortart (siehe[Abschnitt 6.2), das Werkzeug SENNA verwendet [Col+11]. SENNA erzielt für die 
Vergleichsaufgabe der Conference on Computational Natural Language Learning aus dem Jahr 
2003 zur Eigennamenerkennung (CoNLL shared Task 2003) |TD03] für das Fı-Maß einen Wert 
von 0,896. Damit wird zwar nicht die Qualität moderner Ansätze erreicht, welche einen Wert von 
bis zu 0,943 erzielen*| Diese benötigen jedoch deutlich größere Modelle und klassifizieren damit 
nicht so schnell wie SENNA, weshalb dieses Werkzeug verwendet wird. Die Fließbandstufe zur 


Erkennung von Eigennamen dient als Adapter zu SENNA. Sie überführt die einzelnen Wörter in die 
von SENNA erwartete Darstellung und schreibt die erhaltenen Ergebnisse zurück. Da es sich bei 
den Wort-Etiketten um einen standardisierten Satz handelt (engl. tag set), können jederzeit andere 


Implementierungen angebunden werden. 


6.4 Erkennung semantischer Rollen 


Die Erkennung semantischer Rollen schlägt in der Computerlinguistik die Brücke zwischen der 
Syntax und der Semantik einer Äußerung. Zwar werden die Rollen aus syntaktischen Eigenschaften 
abgeleitet; die so erzeugten Prädikat-Argument-Strukturen bilden aber eine leichtgewichtige, 


semantische Interpretation (siehe|Abschnitt 2.3.4.8). Im Kontext von Pro, können so einzelne 


Aktionen in Äußerungen erkannt und Akteure und Argumente zugeordnet werden. Diese werden 
später unter anderem zum Aufbau des situativen Kontexts, bei der Bestimmung von Schleifenkörpern 
und zur Abbildung der Äußerung auf ein Zielsystem (und die Umgebung) verwendet (siehe 
Abschnitte 7.4|[7.6lund 7.8). 


Da die Erkennung semantischer Rollen ein inzwischen formalisiertes Problem der Computerlinguis- 


tik darstellt (siehe |Abschnitt 2.3.4.8), existieren viele vergleichbare Implementierungen. Wie üblich 


verwenden diese vor allem überwachte Lernverfahren, die auf Textdokumenten trainiert werden, und 
sind damit nicht ohne Weiteres für gesprochene Äußerungen verwendbar. Zwei Eigenschaften gespro- 
chener Sprache erschweren die Erkennung der semantischen Rollen besonders: ungrammatikalische 
Satzstrukturen und das Fehlen von Interpunktion. Erstere stehen im unmittelbaren Gegensatz zu 
den grammatikalisch korrekten Trainingsdaten. Für überwachte Lernverfahren gilt: Situationen, die 
während des Trainings nicht auftraten, können später nicht zuverlässig klassifiziert werden. Das 


28 


Siehe hierzu: https ://nlpprogress.com/english/named_entity_recognition. html) zuletzt besucht am 
24.02.2021. 
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Fehlen der Interpunktion erschwert die Klassifikation zusätzlich. Während in Textdokumenten der 
Umfang der Prädikat-Argument-Strukturen durch die Satzgrenzen beschränkt werden, können diese 


in gesprochenen Äußerungen potenziell die ganze Äußerung überspannen. 


Als Basis für die Fließbandstufe zur Erkennung semantischer Rollen [Hey16] wird in Proy/,, das 
Werkzeug SENNA verwendet] [Col+11]. SENNA erzielt für die Vergleichsaufgabe der Conference 
on Computational Natural Language Learning aus den Jahren 2004 und 2005 zur Klassifikation 
semantischer Rollen (CoNLL shared Task 2004 und 2005) |CMO4} |CM05] für das F}-Maß einen 
Wert von 0,755. SENNA stellt die Prädikat-Argument-Strukturen nur in Form der abstrakten 
A*-Rollen dar (siehe{Abschnitt 2.3.4.8). Daher werden diese zusätzlich auf konkrete PropBank- und 
— sofern vorhanden — FrameNet- und VerbNet-Rollen-Kombinationen abgebildet. Die Verarbeitung 


einer Äußerung verläuft wie folgt. Zunächst werden die Token ausgelesen. Um die Problematik 
der fehlenden Interpunktion abzumildern, kann die Äußerung dabei anhand der zuvor bestimmten 
Instruktionen aufgegliedert werden bevor eine weitere Verarbeitung stattfindet (siehe [Abschnitt 6.2). 
Ob Äußerungen als Ganzes oder nach Instruktionen unterteilt werden, kann konfiguriert werden] 


Die Einzelwörter werden anschließend in das von SENNA erwartete Datenformat überführt und zur 
Klassifikation an SENNA übergeben. SENNA gibt die erkannten semantischen Rollen pro Prädikat 
unter Verwendung der A*-Rollen und im JOBES-Format zurück (siehe [Abschnitt 2.3.6). Die 
abstrakten A *-Rollen werden anschließend auf konkrete PropBank- und - sofern vorhanden - auf 
VerbNet- und FrameNet-Rollen abgebildet. Hierzu wird zunächst für jedes Prädikat das entsprechende 
PropBank-Prädikat ermittelt. PropBank führt je nach Bedeutung mehrere Argumentsätze je Prädikat. 
Daher werden die Argumentsätze jeweils mit den vorhandenen A *-Rollen abgeglichen. Kann mehr 
als ein Argumentsatz auf die A*-Rollen abgebildet werden, wird der erste verwendet, da die 
Argumentsätze in PropBank gemäß ihrer Wahrscheinlichkeit geordnet sind. Zusätzlich stellt das 
Werkzeug PIKES [CRA16] Abbildungen zwischen PropBank, FrameNet und VerbNet zur Verfügen, 
welche übernommen werden. 


Die Qualität der Klassifikation semantischer Rollen durch SENNA wurde anhand der 21 Transkrip- 
tionen zu den Szenarien sechs und sieben des Proy,,-Korpus bemessen. Für die Erkennung des 
Prädikates (V-Rolle), der Argumente (A*-Rollen) und des vollständigen Rollensatzes (V-Rolle und 
alle A*-Rollen) wurden jeweils Präzision, Ausbeute und das F}-Maß bestimmt. Die Ergebnisse 


sind in Tabelle 6.5 aufgeführt. Insbesondere die Bestimmung des Prädikates gelingt äußerst präzise; 


die Ausbeute bei der Erkennung der Argumente ist hingegen ausbaufähig; die Bestimmung aller 
Argumente stellt allerdings auch unter den gegebenen Bedingungen eine große Herausforderung 
dar (siehe hierzu die Diskussion zu Beginn des Abschnitts). Insgesamt wird jedoch ein sehr guter 
Wert für das F}-Maß von 0,785 erreicht. Damit wird sogar das Ergebnis für die Vergleichsaufgabe 
übertroffen (Fı für CoNLL shared Task 2005: 0,755). Es scheint, als würden die vergleichsweise 


In Vortests, die anhand von Äußerungen aus dem stationären Datensatz zu den Szenarien eins bis drei durchgeführt 
wurden, zeigte sich, dass die Klassifikation von SENNA, im Gegensatz zu vielen verwandten Ansätzen, robust 
gegenüber grammatikalischen Fehlern ist. Ein nähere Betrachtung der Qualität der Klassifikation durch SENNA 
befindet sich am Ende des Abschnitts. 

Die Standardkonfiguration sieht die Unterteilung in Instruktionen vor. Die Aufteilung nach Instruktionen birgt zwar 
die Gefahr, dass eigentlich zusammengehörende Prädikat-Argument-Strukturen aufgetrennt werden und somit nicht 
mehr korrekt klassifiziert werden können. Im Allgemeinen zeigt sich aber, dass die Erkennung der semantischen 
Rollen besser gelingt, wenn der Umfang der natürlichsprachlichen Sequenz geringer ist. 
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Tabelle 6.5: Evaluationsergebnisse für die Erkennung semantischer Rollen durch SENNA: Die Tabelle zeigt die Ergebnisse 
für die Erkennung des Prädikats, der zugehörigen Argumente, sowie das Gesamtergebnis. 

Klassifizierter Bestandteil Präzision Ausbeute Fy 

Prädikat (V-Rolle) 0,939 0,799 0,863 

Argumente (A *-Rollen) 0,799 0,678 0,734 

Gesamt (V- und A*-Rollen) 0,854 0,726 0,785 


einfachen Formulierungen, wie sie im Prof ,-Korpus vorkommen, bei der Klassifikation stärker 
ins Gewicht fallen als die zum Trainingskorpus verschiedenen Rahmenbedingungen (gesprochene 
Sprache, fehlende Interpunktion, andere Inhalte etc.). 


In diesem Beispiel soll der Unterschied zwischen abstrakten V- und A*-Rollen, wie sie 
semantische Rollenerkenner erzeugen, und konkreten PropBank-Rollen veranschaulicht 
werden. Zur Erzeugung der konkreten Rollen wird der A*-Rollensatz und das zugehörige 
Prädikat, hier pur, benötigt. 


Natürlichsprachliche Sequenz 
Robo put the green cup on the table 
Abstrakte V- und A*-Rollen (IOBES-Format) 


[Robo]s.a0 [put]sv [the]p.a1 [green]: [CupleAaı [On]s-a2 [the]ra> [table]r.a> 


Konkrete PropBank-Rollen 


putter placing imprisonment thing put where put 


Erläuterung 


SENNA erzeugt für die natürlichsprachliche Sequenz zunächst die semantischen A *-Rollen im 
IOBES-Format. Mithilfe des Prädikates put kann der Rollensatz anschließend (in diesem Falle 
eindeutig) auf den PropBank-Eintrag put .01 mit dem zugehörigen Argumentsatz abgebildet 
werden. In PropBank ist verzeichnet, dass für put in dieser Bedeutung, die A *-Rolle AO dem 
putter, Al dem thing put und A2 dem where put entspricht?!| 


31 


PropBank-Eintrag zu put.01: http://verbs.colorado.edu/propbank/framesets-english-aliases/ 


zuletzt besucht am 24.02.2021. 
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srl[A2] 


srl[V] 


srl[AO] srl[A1] srl[A1] srl[A2] 


Abbildung 6.1: Beispielhafter initialer Pro,/,-Graph, wie von der Fließbandstufe zur Grapherzeugung generiert. 


6.5 Grapherzeugung 


Die letzte Stufe des Vorverarbeitungsfließbandes von Prof% dient zur Erzeugung eines initialen 
Graphen aus den zuvor generierten Informationen. Hierzu wird je Wort (bzw. Token) ein neuer 
Knoten vom Typ Token erzeugt und das jeweilige Wort als Attribut abgelegt (Attributname value)” 
Die Knoten werden gemäß ihrer Reihenfolge in der Wortsequenz mit Kanten vom Typ relation 
verbunden. Die weiteren je Wort erzeugten Informationen aus den Fließbandstufen zur seichten 
Sprachverarbeitung und zur Erkennung von Eigennamen werden als Attribute in den Knoten hinterlegt 


(siehe Abschnitt 6.2]und [Abschnitt 6.3). Anschließend werden zur Darstellung der semantischen 
Rollen Kanten vom Typ sr! erzeugt (siehe|Abschnitt 6.4). Je Prädikat(-Knoten) wird eine reflexive 
Kante generiert; dadurch wird die Wurzel der Prädikat-Argument-Struktur angezeigt. Ausgehend von 


diesem Knoten wird für jede zugehörige A*-Rolle eine Kante zum ersten Wort(-Knoten) angelegt; 
weitere zur A*-Rolle gehörende Wörter werden über weitere Kanten verbunden. Die zusätzlichen 
Informationen (Rollenname, PropBank, VerbNet- und FrameNet-Rollen etc.) werden als Attribute 


in den jeweiligen Kanten hinterlegt. Abbildung 6.1|zeigt einen beispielhaften initialen Graphen; 


visualisiert wird jedoch nur ein Teil der generierten Informationen, um die Übersichtlichkeit zu 
wahren. Der erzeugte Graph bildet die Grundlage für die anschließende semantische Analyse der 
Äußerung durch die Proyj,,-Agenten. 


* Eine vollständige Auflistung der verwendeten Typen und zugehörigen Attribute zur Erzeugung des initialen Graphen 


befindet sich in]Anhang B 
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“ 


„Language is the dress of thought. 


— Samuel Johnson 


Die Aufgabe der Agenten in Prof, ist die Erzeugung eines tiefen Verständnisses natürlicher 
Sprache. Hierzu analysieren Sie auf Grundlage des während der Vorverarbeitung erzeugten initialen 
Proy,,-Graphen die Semantik natürlichsprachlicher Äußerungen. Das Analyseergebnis bildet 
die Grundlage für die Erzeugung von Programmen (bzw. die Synthese von Quelltext) durch das 
Nachverarbeitungsfließband. Sämtlicher Erkenntnisgewinn, der dafür nötig ist, wird bereits durch die 
Agenten geleistet. Jeder Agent löst eine wohldefinierte und abgeschlossene Aufgabe zur Analyse der 
Semantik. Im Zusammenspiel erzeugen die Agenten ein tiefes Verständnis natürlicher Sprache. Da 
durch die Architektur PARSE festgelegt ist, dass Agenten unabhängig voneinander agieren, kann 
zur Lösung der jeweiligen Aufgabe des Agenten ein beliebiger Ansatz gewählt werden. Die Agenten 
können statisk-, regel- oder wissensbasierte Techniken anwenden; auch hybride Ansätze sind möglich. 
Die Beschreibung der einzelnen Agenten in den nachfolgenden Abschnitten wird aufzeigen, dass alle 
für Pro, entwickelten Agenten unterschiedliche Ansätze verfolgen. Die Agenten hinterlegen ihre 
Analyseergebnisse in einer geteilten Datenstruktur, dem Pro ,-Graphen; durch die Verwendung 
des Graphen gelingt es, Resultate, die mithilfe unterschiedlicher Techniken gewonnen wurden, 
zu vereinen. Die Rahmenarchitektur Luna sorgt dafür, dass die Agenten parallel und wiederholt 
ausgeführt werden (siehe|Abschnitt 4.2.4). Dadurch können zyklische Abhängigkeiten zwischen den 
Pro/,-Agenten größtenteils aufgelöst werden und die Agenten können von Zwischenergebnissen 
anderer Agenten profitieren. Auf diese Weise wird der Graph sukzessive mit neuen Informationen 
angereichert; im Gesamten bilden die Analyseergebnisse der Agenten eine Interpretation der 
Semantik natürlichsprachlicher Äußerungen. 


Um die gesetzte Zielsetzung der Programmierung mit gesprochener Sprache zu erfüllen, wurden für 
Proy% Agenten entwickelt, die sich in drei Kategorien gliedern. Die erste Kategorie umfasst Agenten, 
die allgemeine Sprachverständnisaufgaben lösen. Hierzu zählen unter anderen die Modellierung 
des sprachlichen Kontextes und die Analyse von Korreferenzen. Agenten, die sich der zweiten 
Kategorie zuordnen lassen, untersuchen natürlichsprachliche Äußerungen dahingehend, ob sich aus 
diesen programmatische Strukturen ableiten lassen. Zu den Aufgaben, die von diesen Agenten gelöst 
werden, zählen beispielsweise die Erkennung von bedingten Verzweigungen oder die Synthese von 
Methodendefinitionen. Die letzte Kategorie bilden die funktionalen Agenten. Diese gewährleisten 
die Funktionsfähigkeit des Gesamtsystems, beispielsweise durch die Initiierung von Rückfragen, 
falls eine Äußerung nicht interpretiert werden kann. Konkret wurden die folgenden Agenten für 


PrO entwickelt: 
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Agenten für allgemeines Sprachverständnis 
e Erkennung von Disfluenzen in gesprochener Sprache (Abschnitt 7.1 


e Disambiguierung von Wortbedeutungen (Abschnitt 7.2) 
e Modellierung und Etikettierung von Diskurs-Themen (Abschnitt 7.3) 


e Modellierung des sprachlichen Kontextes (Abschnitt 7.4) 


e Korreferenzanalyse (Abschnitt 7.5) 


Agenten zur Erkennung programmatischer Strukturen 


e Synthese von Kontrollstrukturen (Abschnitt 7.6) inklusive 


o bedingten Verzweigungen, 
o Nebenläufigkeit und 


o Schleifen 


e Erkennung und Analyse von Lehrsequenzen in natürlicher Sprache (Abschnitt 7.7) 


e Synthese von Methodendefinitionen und Skripten (Abschnitt 7.8 


Funktionale Agenten 
e Automatische Auswahl von Zielsystem- und Umgebungsontologien (Abschnitt 7.9 


e Dialog-Agent (Abschnitt 7.10) 
e Funktionswächter-Agenten (Abschnitt 7.11) 


Der Grund für die Auswahl ebendieser Agenten ist folgender. Diese Agenten erzeugen die minimal 
erforderlichen Analyseschritte, um Programme aus natürlichsprachlichen, gesprochenen Äußerungen 
synthetisieren zu Können. Sie bilden somit die minimal erforderliche Menge zur Erfüllung der 
Zielstellung. Durch die Entwicklung weiterer Agenten könnte die Qualität des Gesamtanalyseer- 
gebnisses gegebenenfalls verbessert werden. Wie in |Kapitel 4 beschrieben, ist die Erweiterung 


von Pro, um weitere Agenten jederzeit möglich. Die für Prof; entwickelten Agenten werden 


in den folgenden Abschnitten beschrieben. Wie zuvor erläutert, lösen die Agenten jeweils eine 
abgeschlossene, wohldefinierte Aufgabe. Somit leistet jeder einzelne einen Beitrag zur Forschung. 
Dementsprechend wird in den jeweiligen Abschnitten nicht nur der zur Umsetzung gewählte Ansatz 
beschrieben, sondern auch verwandte Ansätze — sofern solche existieren — und zugrundeliegende 
Forschungsergebnisse diskutiert. Die Agenten können aufgrund ihrer durch PARSE definierten 
Unabhängigkeit einzeln, intrinsisch evaluiert werden; somit können für alle Agenten in den jeweili- 
gen Abschnitten Evaluationsergebnisse präsentiert werden !| Damit wird auch der in|Abschnitt 5.1 
aufgestellten Forderung nach einer kontinuierlicher Evaluation von Prof, genüge getan. 


Ausgenommen hiervon sind die Funktionswächter-Agenten sowie einer der beiden Agenten zur Disambiguierung. 
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7.1 Erkennung von Disfluenzen in gesprochener 
Sprache 


Der Fokus auf die Programmierung mit gesprochener Sprache bringt eine Vielzahl an Herausforde- 


rungen mit sich (siehe [Abschnitt 2.3.12). Abgesehen davon, dass bei der Synthese von Quelltext aus 


gesprochenen Anweisungen die Besonderheiten natürlicher Sprache, wie beispielsweise Mehrdeutig- 
keit oder Implizitheit, beachtet werden müssen, ist die Analyse gesprochener Sprache (gegenüber der 
Schriftsprache) mit zusätzlichen Schwierigkeiten behaftet. So erzeugen automatische Spracherkenner 
beispielsweise keine zuverlässigen Interpunktionen, weshalb für Prog% vollständig darauf verzich- 
tet wird (siehe Abschnitt 6.1). Ebenso zeigt sich, dass Sprecher bei spontanen Äußerungen teilweise 


grammatikalische Regeln außer Acht lassen. Während die meisten dieser Herausforderungen implizit 
2 


in den Entwurf der Komponenten von Prof, eingehen 


, soll ein weiteres Phänomen gesprochener 


Sprache explizit analysiert werden: das Auftreten von Disfluenzen (engl. disfluencies). 


Unter Disfluenzen versteht man in der Linguistik Unterbrechungen im Sprachfluss, zum Beispiel 
durch die Verwendung eines Verzögerungslauts wie ehm. Menschen verwenden Verzögerungslaute 
vorwiegend um (Denk-)Pausen zu füllen; sie können aber auch verwendet werden, um eine Un- 
sicherheit auszudrücken oder die Korrektur einer zuvor getätigten Äußerung einzuleiten, wie in 
folgendem Beispiel: „hey robo take uhm the apple err the orange“. Menschlichen Zuhörern gelingt 
die Interpretation derartiger Sprechsituationen in den meisten Fällen intuitiv. Eine programmatische 
Analyse von Disfluenzen gestaltet sich hingegen schwierig, da diese nicht einfach anhand syntak- 
tischer oder lexikalischer Eigenschaften erkannt werden können. Für die mit Pro, angestrebte 
Programmierung mit natürlicher Sprache ist die Analyse von Disfluenzen jedoch unumgänglich. 
Weiterführende Analysen könnten durch auftretende Disfluenzen (bzw. Transkriptionen dieser) 
negativ beeinflusst werden. Auch Anweisungen, die korrigiert oder revidiert werden, haben Einfluss 
auf die Interpretation von Äußerungen, da sie die Intention des Gesagten verändern. Wird dies 
ignoriert, könnten in der Folge zum Beispiel falsche oder überflüssige Instruktionen erzeugt werden. 


7.1.1. Disfluenzen als Problemstellung der Computerlinguistik 


Disfluenzen stellen eine Unterbrechung des Sprachflusses dar. Sie treten hauptsächlich in spontaner, 
gesprochener Sprache auf. Disfluenzen äußern sich zumeist durch die Verwendung von Verzöge- 
rungslauten oder Wort- bzw. Phrasenwiederholungen. In der Literatur werden für gewöhnlich drei 
unterschiedliche Arten von Disfluenzen unterschieden [Shr94]: Reparaturen, entfernbare Disflu- 
enzen und unkorrigierte Disfluenzen. Unterbricht ein Sprecher seine Äußerung, um Teile davon 
zu widerrufen oder zu korrigieren, spricht man von einer Reparatur, wie im eingangs diskutierten 
Beispiel. Je nach Art der durchgeführten Modifikation unterscheidet man Reparaturen zusätzlich 
nach Entfernungen, Einsetzungen, Wiederholungen, Ersetzungen oder Neustarts. Disfluenzen, die 
entfernt werden können, tragen keine Semantik, sondern unterbrechen lediglich den Sprachfluss 


Beispielsweise wird in der Vorverarbeitung aufgrund der unsicheren grammatikalischen Strukturen auf eine 
vollständige Zerteilung der Eingabe verzichtet und stattdessen eine seichte Variante bevorzugt (siehe| Abschnitt 6.2). 
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durch eine (Denk-)Pause, beispielsweise durch einen Verzögerungslaut (Beispiel: „I ehm would 
like to [. .. |“). Die letzte Art von Disfluenzen bilden die unkorrigierten. Hier wird der Sprachfluss 
zwar unterbrochen und die Äußerung bleibt unvollständig, es findet aber keine Korrektur durch den 
Sprecher statt (Beispiel: „I would like to th- err everyone who [. . . |“). Alle Disfluenzen folgen laut 


Shriberg einer gewissen Struktur, die aus bestimmten Bestandteilen aufgebaut ist [Shr94]: 


Unterbrechungspunkt (engl. interruption point, IP): Der Unterbrechungspunkt bezeichnet die 
Stelle, an der der Sprachfluss unterbrochen wird. 


Interregnum (IM): Das Interregnum leitet eine Bearbeitungsphase ein; es dient der Strukturie- 
rung des Diskurses. Interregna können aus Verzögerungslauten (z. B. ehm), Füllwörtern (z. B. 
so), Diskursmarkern (z. B. well) oder expliziten Bearbeitungsbegriffen bzw. -phrasen (z. B. I 
mean) oder einer Kombination dieser gebildet werden. 


Reparandum (RM): Das Reparandum ist der fehlerhafte, zu reparierende Teil einer Äußerung. 


Reparatur (RR): Die Reparatur (häufig auch als Reparans bezeichnet) ist der Teil der Äußerung, 
welcher (semantisch gesehen) das Reparandum ersetzen soll. 


Das Vorhandensein der Bestandteile kann dabei je nach Art der Disfluenz variieren. Grundsätz- 
lich sind alle Bestandteile bis auf den Unterbrechungspunkt optional. Eine Reparatur tritt aber 
üblicherweise nur gepaart mit einem Reparandum auf. 


In diesem Beispiel soll grundlegende Struktur von Disfluenzen veranschaulicht werden. Die 
Beispieläußerung enthält alle Bestandteile von Disfluenzen, wie zuvor definiert. 


Natürlichsprachliche Sequenz 


hey robo take uhm the apple err I mean the orange 


Struktur 


hey robo take |@ 


Erläuterung 


Die Äußerung wird durch den Verzögerungslaut uhm unterbrochen. Dieser bildet zusammen 


mit dem Unterbrechungspunkt (hier dargestellt durch das Zeichen @) ein Interregnum. Es 
folgt das Reparandum, zu erkennen am darauffolgenden zweiten Interregnum. Dieses besteht 
neben dem Verzögerungslaut err aus der Bearbeitungsphrase / mean. Der letzte Bestandteil 
ist die Reparatur. Im Beispiel können aus Sicht der Semantik die Interregna entfernt werden; 
zusätzlich ersetzt die Reparatur das Reparandum. Folglich lautet die korrigierte Äußerung: 
„hey robo take the orange“. 
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Wie in den meisten Gebieten der Computerlinguistik wurden anfänglich regelbasierte Verfahren 


eingesetzt, um Disfluenzen und etwaige Reparaturen zu erkennen [Hin83} |BDS92]. Moderne 


Verfahren sind jedoch nahezu ausnahmslos statistikbasiert; dabei haben sich im Wesentlichen drei 
Strömungen etabliert. Zunächst gibt es Verfahren, die Grammatiken für spezialisierte Zerteiler 


(engl. parser) lernen |CJO1} RT13}|HJ14]. Diese Verfahren sehen Disfluenzstrukturen als partielle 


Zerteilung der Eingabe an. Die zweite Strömung verwendet klassische Lernverfahren, vor allem 
solche, die auf bedingten Zufallsfeldern (engl. conditional random field, kurz CRF) basieren [GWG10} 
ZOH14t\/FDK1 5]. In den letzten Jahren werden vor allem (rekurrente) neuronale Netze zur Disfluenz- 
Erkennung eingesetzt, insbesondere bidirektionale LSTMs (siehe Abschnitt 2.2.2) [ZOH16} [1717]. 
Einige Ansätze kombinieren verschiedene Verfahren. Wang et al. verwenden beispielsweise ein 


bidirektionales LSTM, dessen Klassifikation sie durch die Verwendung eines bedingten Zufallsfelds 
optimieren [Wan+ 16]. 


Fiir das Training von Verfahren, die tiberwachtes maschinelles Lernen verwenden, wird ein (aus- 
reichend großer und annotierter) Datensatz benötigt. Für die Disfluenz-Erkennung hat sich das 
Switchboard-Korpus als De-Facto-Standard etabliert [GHM92}|GB00]. Dieses besteht aus 2438 Tele- 
fongesprächsmitschnitten zwischen jeweils zwei Gesprächspartnern. Insgesamt trugen 520 Sprecher 


zur Datensammlung bei. Zu allen Mitschnitten existieren händisch erzeugte Transkriptionen, die 
zwischen Äußerungen von Sprecher A und B unterscheiden. 1126 der Transkriptionen wurden später 
in Anlehnung an die Notation von Shriberg, wie zuvor beschrieben, mit Disfluenz-Informationen 


annotiert [[Mar+99; [TMS03]. Mit Ausnahme der frühen regelbasierten Ansätze verwenden alle 


Verfahren das Switchboard-Korpus als Vergleichsdatensatz. Dabei hat sich bei der Aufteilung in 
Test-, Entwicklungs- (oder Validierungs) und Testdatensatz das von Charniak und Johnson vorge- 


schlagene Verfahren etabliert [|CJO1]. Diese teilten den mit Disfluenz-Informationen versehenen 


Teil des Switchboard-Korpus in vier etwa gleich große Abschnitte ein. Die Abschnitte zwei und drei 
verwendeten Charniak und Johnson als Trainingsdatensatz. Der vierte Abschnitt wurde wiederum in 
drei gleich große Abschnitte geteilt und der erste von diesen als Testdatensatz verwendet; die übrigen 
zwei Unterabschnitte können als Entwicklungs- oder Validierungsdatensatz verwendet werden. Auch 
wenn alle modernen Ansätze auf Grundlage des Switchboard-Korpus entwickelt wurden, ist ein 
direkter Vergleich der Ergebnisse nur bedingt möglich. Zum einen klassifizieren die Verfahren 
unterschiedliche Bestandteile der Disfluenz-Strukturen. Zwar fokussieren sich die meisten Ansätze 
auf die Erkennung des Reparandums, jedoch zählen einige Teile des Interregnums dazu, andere 
bestimmen nur das erste Wort eines Reparandums andere alle Wörter. Zum anderen unterscheidet 
sich die Datengrundlage. Während vor allem die Zerteiler-basierten Ansätze die Baumstruktur des 
Originaldatensatzes verwenden, überführen die meisten anderen Ansätze die Annotationen in eine 
flache Darstellung mit einer Etikette pro Wort; diese Transformationen sind nicht bei allen Ansätzen 
gleich, jedoch zumeist sehr ähnlich, weshalb ein Vergleich anhand des F} -Maß trotzdem möglich 
ist. Das erste Verfahren, das die beschriebene Aufteilung des Korpus nutze (Charniak und Johnson), 
erreichte einen Wert von 0,782. Moderne Zerteiler-basierte Ansätze erreichen Werte von bis zu 
0,841 |HJ 14]. Unter den CRF-basierten Verfahren erzielt der Ansatz von Ferguson et al. einen Wert 
von 0,854 |FDK15]. Unter Verwendung von bidirektionalen LSTMs kann ein Wert von 0,868 erzielt 
werden [JJ17]. Durch die Kombination eines bidirektionalen LSTMs mit einem CRF gelingt Wang 


et al. eine weitere Steigerung auf 0,871[Wan+16)]. 
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Tabelle 7.1: Zur Beschreibung von Disfluenz-Bestandteilen verwendete Etiketten (inklusive Kurzbeschreibung der 
Bedeutung). 


Etikett Kurzbeschreibung 
O-DF Nicht Teil einer (bzw. außerhalb einer) Disfluenz 
B-RM Beginn eines Reparandums 


I-RM Innerhalb eines Reparandums 
B-RS Beginn eines Reparans 

I-RS Innerhalb eines Reparans 

FP Gefüllte Pause 

EE Expliziter Bearbeitungsbegriff 
DM _ Diskursmarker 


7.1.2 Vorgehen zur Erkennung von Disfluenzen 


Für Proy/, soll ein Agent entwickelt werden, der Disfluenzen in Äußerungen erkennt und die 
Struktur der Disfluenzen, wie zuvor beschrieben, klassifiziert. Hierzu soll ein bidirektionales, 
rekurrentes, neuronales Netz mit langem Kurzzeitgedächtnis (engl. bidirectional long short-term 
memory, kurz Bi-LSTM) trainiert werden (siehe |Abschnitt 2.2.2). Das Modell wird einmalig 
eingelernt (Offline-Training); der Agent verwendet das erzeugte Modell lediglich zur Klassifikation. 


Als Datensatz wird das Switchboard-Korpus verwendet. Dieses bietet zum einen eine ausreichend 
große Datengrundlage für das Training eines überwachten Lernverfahrens, zum anderen können die 


erzielten Ergebnisse später mit denen anderer Ansätze verglichen werden?| 


Um das Switchboard-Korpus als Datensatz für ein Bi-LSTM nutzen zu können, müssen Disfluenz- 
Strukturen, die in einer Baumstruktur dargestellt sind, in eine sequenzielle Darstellung überführt 
werden. Hierzu wird pro Wort ein Etikett angebracht, das die Zugehörigkeit zu einer Disfluenz- 
Struktur repräsentiert. Bei der Transformation und der Wahl der Etiketten diente die Arbeit von 
Zayats et al. als Orientierung [ZOH16]. Die verwendeten Etiketten sind in/Tabelle 7.1laufgeführt. Zu 
beachten ist, dass die Art der verwendeten Wörter im Interregnum feingliedrig unterschieden wird; 


die Etiketten FP, EE und DM beschreiben somit alle Bestandteile von Interregna. Die Reparanda, 
die Reparaturen (hier als Reparans bezeichnet) und alle Bestandteile, die nicht zu einer Disfluenz 
zugeordnet wurden, werden im JOB-Format dargestellt (siehe|Abschnitt 2.3.6), welches Wörter zu 
Beginn eines Bestandteils mit einem gesonderten Etikett-Präfix B versieht. Alle weiteren Wörter 


werden mit dem Präfix / versehen; die Wörter, die nicht Teil einer Disfluenz sind, werden mit dem 


Präfix O markiert. Die in|Abschnitt 7.1.1/beschriebene Beispieläußerung würde folgende Etiketten 


erhalten: 
[hey lo.nr [robolo.nr [take]or [uhm]rr [the]srm [apple]iam [err]re [lee 
[mean] [the]s.rs [orange]ırs 
°? Die Pro/,-Korpora eignen sich nicht als Grundlage. Das mithilfe der Online-Studie erzeugte Korpus enthält keine 


Disfluenzen, da es sich um textuelle Beschreibungen handelt, und das im Zuge der stationären Studien erzeugte 
Korpus hat einen zu geringen Umfang. 


172 


7.1 Erkennung von Disfluenzen in gesprochener Sprache 


Zusätzlich werden alle Satzzeichen aus dem Korpus entfernt, da das Modell später im Kontext 


von Prof, verwendet werden soll? Als Eingabesequenz dient somit die ganze Äußerung eines 


Sprechers bis ein Sprecherwechsel stattfindet. Das Entfernen der Satzzeichen erschwert die Klassifi- 
kationsaufgabe, da die Eingabesequenzen länger werden und Interpunktion potenziell wertvoll für 
Klassifikation ist. 


Als Eingabe-Merkmale für den Klassifikator werden die Wortsequenz, die zugehörigen Wortartmar- 
kierungen, Chunk-Etiketten und Umgebungsvektoren verwendet. Je Wort wird ein Eigenschaftsvektor 
erstellt, der ebendiese Informationen kodiert; der Vektor ist wie folgt zusammengesetzt. Das Wort 


an sich wird als Worteinbettung nach dem GloVe-Verfahren repräsentiert [PSM14]. Es wird ein 


vortrainiertes Modell verwendet, das auf zwei Milliarden Meldungen des Nachrichtendienstes 


Twitter trainiert wurde und 50 Dimensionen aufweist] Die Wortarten und die Chunk-Etiketten 


werden jeweils mithilfe einer 1-aus-n-Kodierung dargestellt (siehe Abschnitt 2.3.16). Zusätzlich 


wird ein Vektor definiert, der die Wortumgebung beschreibt. Dieser entspricht im Wesentlichen 


dem von Wang et al. verwendeten [Wan+16]. Im Vektor wird folgendes kodiert. Wiederholt sich 


das Wort in einer Umgebung von fünfzehn Wörtern (rechts oder links des Wortes), wird an der 
entsprechenden Stelle des Vektors eine 1 gesetzt; innerhalb der nächsten 30 Dimensionen des 
Vektors wird ebendiese Information für die Wiederholung der Wortart hinterlegt. Zusätzlich wird 
auch das wiederholte Auftreten von Bigrammen bzw. Wortart-Bigrammen in einer Umgebung von 
vier Wörtern kodiert. Zuletzt wird hinterlegt, ob sich innerhalb von zwei Wörtern ähnliche Wörter 
befinden] Als Maß wird die Jaro-Winkler-Ähnlichkeit verwendet’| Uberschreitet die Ahnlichkeit 
den Schwellenwert von 0,8, wird an der betreffenden Stelle des Vektors eine 1 gesetzt. Durch diese 
Ähnlichkeitsbetrachtungen können Disfluenzen, wie in „get th uhm the juice“, explizit kodiert 
werden. 


Das verwendete Bi-LSTM besteht aus 100 Neuronen in der verdeckten Schicht. In der Ausgabe- 


Schicht wird die Softmax-Funktion zur Erzeugung der acht Zielklassen verwendet (siehe|Tabelle 7.1). 


Die Lernrate beträgt während des Trainings 0,1. Als Größe der Stapel (engl. batch size) wurde 20 
festgelegt. Die maximale Anzahl an Trainingsepochen beträgt 20. Allerdings wurde die Technik 
frühzeitiger Abbruch (engl. early stopping) verwendet; dadurch wird das Training beendet, sobald 
nach drei aufeinanderfolgenden Trainingsdurchläufen keine Verbesserung mehr hinsichtlich der 
Evaluationsmetrik (hier Fı) erzielt werden kann. Getestet wird hierbei an den Äußerungen des 
Entwicklungsdatensatzes. Diese Konfiguration entspricht im Wesentlichen denen von Zayats et al. 
und Wang et al. vorgeschlagenen [ZOH16}/Wan+16], die derzeit dem Stand der Technik entsprechen. 
Die maximale Länge der Eingabesequenz (Wörter) wurde jedoch vom üblichen Wert 50 auf 60 


erhöht, um den längeren Eingabesequenzen, die durch das Zusammenfassen ganzer Äußerungen 
(ohne Interpunktion) entstehen, gerecht zu werden. 


In Pro, stehen keine Satzzeichen zur Verfügung (siehe| Abschnitt 6.1 
Verwendetes Modell: glove.twitter.27B.50d, https: //nlp.stanford.edu/project s/glove/, zuletzt be- 
sucht am 24.02.2021. 

Wang et al. verwenden lediglich eine Umgebung von einem Wort links und rechts. 

Wang et al. definieren ein eigenes Ähnlichkeitsmaß, welches auch hier nachimplementiert wurde. Mit der Jaro- 
Winkler-Ähnlichkeit konnten in Vortests für Beispiele aus dem Proy/,-Korpus jedoch bessere Ergebnisse erzielt 
werden. 
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Tabelle 7.2: Evaluationsergebnisse des Disfluenz-Klassifikators auf dem Testdatensatz des Switchboard-Korpus je Klasse 
und im Mittel. 

Klasse Präzision Ausbeute Fi 

O-DF 0,951 0,990 0,970 

B-RM 0,895 0,750 0,816 

I-RM 0,848 0,591 0,697 

B-RS 0,896 0,754 0,819 


I-RS 0,824 0,434 0,559 
FP 0,989 0,993 0,991 
EE 0,970 0,938 0,953 
DM 0,960 0,903 0,931 
Ø 0,917 0,794 0,843 


Nach Abschluss des Trainings kann das erzeugte Modell anhand des Testdatensatzes evaluiert 
werden. Die Qualität der Klassifikation wird mithilfe der Metriken Präzision, Ausbeute und F; je 


Klasse und im Mittel über alle Klassen ermittelt; Tabelle 7.2|zeigt die Ergebnisse. Der Wert für das 


Fı-Maß beträgt im Mittel 0,843 — ein sehr gutes Resultat®| Die Präzision übersteigt für fast alle 


Klassen die Ausbeute, ein erwünschter Effekt, schließlich sollen möglichst wenig falsch positive 
Klassifikationen erzeugt werden] Dementsprechend ist auch das Ergebnis für die Klasse O-DF als 
positiv zu bewerten, da vor allem Wörter, die nicht Teil einer Disfluenz sind, korrekt klassifiziert 
werden sollten. Hinsichtlich der Werte der weiteren Klassen fällt auf, dass diejenigen, die Interregna 
beschreiben und zumeist aus bestimmten Wörtern oder Phrasen bestehen (FP, EE und DM), sehr 
exakt klassifiziert werden. Die Klassifikation der Reparanda und Reparans gelingt weniger gut; zwar 
wird häufig der Beginn des jeweiligen Bestandteils korrekt ermittelt (B-*), der Umfang der Struktur 
wird aber häufig zu gering gewählt. Letzteres lässt sich an den geringen Ausbeute-Werten für die 
weiterführenden Wörter der Bestandteile (/-*) ablesen. 


Für eine abschließende Bewertung der Ergebnisse, werden sie mit denen des derzeit besten 


Ansatzes von Wang et al. verglichen [|Wan+16]. Wie die meisten verwandten Arbeiten betrachtet 


der Ansatz von Wang et al. nur die Erkennung des Reparandums (RM); die Autoren unterscheiden 
auch nicht zwischen Beginn und weiterführenden Wörtern des Reparandums. Daher werden in 


Tabelle 7.3|nur die Ergebnisse für die Erkennung der Reparanda betrachtet (wortweise, *RM- 


Etiketten). Der Wert für das Fı-Maß des hier entwickelten Klassifikators ist um 0,079 (9,1%) 
schlechter als das Vergleichsverfahren. Diese Differenz ist unter Betrachtung der unterschiedlichen 
Randbedingungen ein akzeptables Ergebnis. Das hiesige Bi-LSTM wurde auf einer Version des 
Korpus ohne Interpunktion trainiert, Wang et al. trainierten hingegen auf dem unveränderten Korpus. 
Zudem wurde das Vergleichsverfahren nur auf die Erkennung von Reparanda trainiert; das bedeutet, 
es handelt sich um eine binäre Klassifikation. Der hier entwickelte Klassifikator unterscheidet 


Bei der Bewertung der Ergebnisse muss jedoch berücksichtigt werden, dass die Klasse O-DF, die alle Wörter angibt, 
die nicht Teil einer Disfluenz sind, deutlich dominiert. 

Andere Agenten könnten als Disfluenz markierte Wörter ignorieren, weshalb die Präzision der Klassifikation im 
Vordergrund stehen sollte. 


174 


7.1 Erkennung von Disfluenzen in gesprochener Sprache 


Tabelle 7.3: Vergleich des für Pro, entwickelten Disfluenz-Klassifikators mit dem besten Vergleichsverfahren von 
Wang etal. Want 16}: Betrachtet werden nur Reparanda (wortweise), Beginn und weiterführende Wörter werden nicht 
unterschieden. 


Modell Präzision Ausbeute Fi 
Bi-LSTM Prof; 0,906 0,702 0,792 
Bi-LSTM-CRF Wang et al. [|Wan+16 0,910 0,836 0,871 


Tabelle 7.4: In der Standardkonfiguration des Agenten definierte Wortlisten zur Erkennung von Verzögerungslauten und 
expliziten Bearbeitungsbegriffen. 


Typ Wörter 


Verzögerungslaute (FP) um, uh, eh, uh-oh, un, er, eh, ehm, em, ah, ahm, oh, uhm, 
duh, ooh, gee, hum, hm, ugh, gosh, huh, ahm, yah, hmm 


Explizite Bearbeitungsbegriffe (EE) mean, sorry, excuse 


hingegen acht Klassen gleichzeitig, eine deutlich schwierigere Klassifikationsaufgabe. Zuletzt 
verwenden Wang et al. zusätzlich ein bedingtes Zufallsfeld; dieser Zusatz verhilft ihnen jedoch nur zu 
leicht besseren Ergebnissen und steht in keinem Verhältnis zum zusätzlichen (Rechen-)Aufwand. Die 
Ergebnisse zeigen, dass sich der Klassifikator — unter Berücksichtigungen der projektspezifischen 
Rahmenbedingungen — für den Einsatz in Pro’, eignet. Besonders positiv kann die erzielte 
Präzision bewertet werden. Diese liegt auf dem Niveau des Vergleichsverfahrens und ist für die 


A 


Verwendung in Pro/,,,, wie zuvor diskutiert, von besonderer Bedeutung. 


al? 


7.1.3 Implementierung des Agenten zur Erkennung von 
Disfluenzen 


Um das erzeugte Bi-LSTM-Modell verwenden zu können, wurde ein PARSE-Agent implementiert. 
Dieser liest zunächst alle Wörter aus dem Pro/,-Graphen aus; zusätzlich werden die Wortarten 
und die Chunk-Etiketten ausgelesen. Damit ist der Agent zur Erkennung von Disfluenzen lediglich 
von der Vorverarbeitungsstufe zur seichten Sprachverarbeitung abhängig (siehe [Abschnitt 6.2). 
Die ausgelesenen Informationen werden anschließend in die zuvor beschriebene Vektordarstellung 


überführt und zur Klassifikation an das Modell übergeben. 


Optional wird eine Nachverarbeitung der Klassifikationsergebnisse durchgeführt] Diese prüft 
zunächst anhand von Wortlisten, ob alle Verzögerungslaute (Etikett FP) und expliziten Bearbei- 
tungsbegriffe (Etikett EE) korrekt klassifiziert wurden und ändert gegebenenfalls die Etiketten. 


Die Wortlisten können konfiguriert werden; in Tabelle 7.4 sind die Listen der Standardkonfi- 


guration aufgeführt. Anschließend wird überprüft, ob innerhalb von einem oder zwei Wörtern 
Wortwiederholungen auftreten. Ist dies der Fall, wird davon ausgegangen, dass es sich um ein 
Reparandum-Reparans-Paar handelt und die jeweiligen Etiketten werden vergeben. Diese Art kurzer 
Reparatur-Strukturen klassifiziert das Bi-LSTM häufig falsch, weshalb diese nachträgliche Korrektur 


!0 Die Nachverarbeitung ist in der Standardkonfiguration des Agenten aktiviert. 
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Tabelle 7.5: Der für die Evaluation des Agenten zur Erkennung von Disfluenzen verwendete Datensatz. 


Szenario 13 Szenario 14 Gesamt 


Aufnahmen 15 14 29 

davon wiederholte 5 4 9 
Wörter 1269 1392 2661 
gefüllte Pausen (FP) 54 17 71 
Diskursmarker (DM) 0 0 0 
Explizite Bearbeitungsbegriffe (EE) 0 0 0 
Reparanda 23 25 48 
Reparans 26 26 52 
Aufnahmen ohne Reparaturen 8 9 17 


nötig ist. Zuletzt wird überprüft, ob alle Reparanda- und Reparans-Etiketten zusammenhänge Blöcke 
bilden; etwaige Lücken werden durch Änderungen der Etiketten geschlossen. 


Abschließend schreibt der Agent seine Ergebnisse in den Pro ,-Graphen zurück. Hierzu werden 
die erzeugten Etiketten an die Wörter annotiert; das bedeutet, den Knoten vom Typ Token wird 
ein neues Attribut disfluencyTag hinzugefügt und das entsprechende Etikett als Wert gesetzt. 
Zusätzlich wird für alle Reparandum-Reparans-Paare eine neue Kante vom Typ repair angelegt, 
die vom ersten Wort des Reparans auf das erste des Reparandums weist. 


7.1.4 Evaluation des Agenten zur Erkennung von Disfluenzen 


Die Evaluation des Agenten zur Erkennung von Disfluenzen wird anhand von Transkriptionen zu 
den Szenarien dreizehn und vierzehn evaluiert (siehe|Abschnitt 5.5.2). Diese Transkriptionen weisen 
mehr Disfluenzen auf als der restliche Teil des Korpus; sie wurden zudem während der Entwicklung 
des Agenten nicht betrachtet!!] 


In [Tabelle 7.5| sind die wesentlichen Charakteristika des verwendeten Evaluationsdatensatzes 


aufgeführt. Die 29 Aufnahmen enthalten in Summe 71 gefüllte Pausen, 48 Reparanda und 52 
Reparans. Die letzten beiden bilden zusammen 27 Reparaturen (zwölf in Szenario dreizehn und 
fünfzehn in Szenario vierzehn); siebzehn Aufnahmen enthalten jedoch keinerlei Reparaturen. Die 
Sprecher verwendeten zudem keinerlei expliziten Bearbeitungsbegriffe oder Diskursmarker. Dieser 
Umstand kann möglicherweise darauf zurückgeführt werden, dass es sich bei den Sprechern nicht 
um Muttersprachler handelt (siehe Abschnitt 5.5.2.2). 


Für die Transkriptionen der Aufnahmen wurde händisch ein Goldstandard mit den in Tabelle 7.1 


aufgeführten Etiketten erstellt. Um das Vergleichsergebnis des Agenten zu erhalten, wurde das 
vollständige Vorverarbeitungsfließband ausgeführt (siehe Kapitel 6). Anschließend wurde nur der 


!! Während der Entwicklung wurden nur die Transkriptionen der ersten zwölf Szenarien verwendet; diese enthalten 


allerdings in Summe nur 60 Disfluenzen, zumeist gefüllte Pausen. 
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Tabelle 7.6: Evaluationsergebnisse für den Agenten zur Erkennung von Disfluenzen: Aufgeführt sind die Ergebnisse je 
Klasse für die beiden Disfluenzstrukturen Reparandum und Reparans, sowohl in IOB-Darstellung (B* und /*) als auch 
ohne die Unterscheidung zwischen Beginn- und Folgewörtern ("RM und *RS). 
Klasse Präzision Ausbeute Fi 

Std. Opt. A| Std. Opt. A| Std. Opt. A 

B-RM 0,750 0,690 — 0,060 0,500 0,667 + 0,167 0,600 0,678 + 0,078 

I-RM |/0,643 0,688 + 0,045 [0,500 0,611 + 0,11110,563 0,647 + 0,084 

B-RS 0,737 0,870 + 0,133 0,467 0,667 + 0,200 10,571 0,755 + 0,184 

I-RS /0,800 0,846 + 0,046 [0,381 0,524 + 0,143 10,516 0,647 + 0,131 

"RM |0,765 0,733 — 0,032 |0,542 0,688 + 0,146 10,634 0,710 + 0,076 

"RS 10,759 0,861 + 0,102/0,431 0,608 + 0,177}0,550 0,713 + 0,163 


Agent zur Disfluenz-Erkennung einmalig ausgeführf!?] Es wurden zwei verschiedene Konfigurationen 
getestet: die Standard-Version des Agenten ohne Nachverarbeitung (Sfd.) und mit Nachverarbeitung 
(Opt.). Die Ergebnisse werden anhand der Metriken Präzision, Ausbeute und F; bemessen (siehe 


Tabelle 7.6). 


Die Standardkonfiguration ohne Nachverarbeitung erzielt deutlich schlechtere Ergebnisse als auf 
dem Testdatensatz des Switchboard-Korpus. Sowohl die Präzision, aber besonders die Ausbeute 
sind unzureichend, sodass die erreichten Werte für das Fı-Maß je nach Klasse nur zwischen 
0,516 und 0,600 liegen. Dieses Ergebnis kann höchstwahrscheinlich auf die Unterschiede zwischen 
Trainings- und Evaluationsdatensatz zurückgeführt werden. Während es sich beim Switchboard- 
Korpus um Konversationen zwischen zwei Sprechern handelt, bei denen die einzelnen Äußerungen 
recht kurz sind, sind die Äußerungen im Proy,,-Korpus lange Beschreibungsfolgen, die nur von 
einem Sprecher getätigt werden. Hinzu kommt, dass alle Sprecher des Evaluationsdatensatzes 
keine Muttersprachler sind, der Klassifikator aber auf Äußerungen von Muttersprachlern trainiert 
wurde. Gerade bei intuitiven Sprechsituationen, wie gefüllten Pausen oder Reparaturen, zeigen sich 
deutliche Unterschiede zwischen Muttersprachlern und Nicht-Muttersprachlern. Letztere verfallen 


bei Reparaturen in Konstrukte ihrer Muttersprache oder verwenden andere Verzögerungslaute. 


Werden die Klassifikationsergebnisse nachverarbeitet (Opr.), zeigt sich, dass sich die Ausbeute in 
allen Fällen und die Präzision mit Ausnahme der Klasse B-RM (und damit auch *RM) verbessert. Vor 
allem die Ausbeute steigt deutlich, teilweise um bis zu 30% (Klasse B-RS). Mit Werten von im Mittel 
0,710 (Reparandum) bzw. 0,713 (Reparans) für das F,-Maß werden mithilfe der Nachverarbeitung 
akzeptable Ergebnisse erzielt. Zukünftig sollte aber insbesondere die Präzision der Erkennung von 
Disfluenzen in Äußerungen, wie sie im Kontext von Prof, üblich sind, verbessert werden, indem 
zum Beispiel das trainierte Modell mithilfe des Pro/,,-Korpus verfeinert wird. 


12 Der Agent benötigt keine Informationen anderer Agenten und verfeinert die eigenen Analysen auch nicht weiter; eine 


einmalige Ausführung ist daher ausreichend. 
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7.2 Disambiguierung von Wortbedeutungen 


Die inhärente Mehrdeutigkeit natürlicher Sprachen ist der wesentlichste Unterschied zu formalen 
Sprachen (siehe|Abschnitt 2.3.8). Die einfachste Form semantischer Ambiguität ist die Mehrdeu- 
tigkeit von Bedeutungen auf Wortebene. Jedes Wort kann je nach Kontext eine andere Bedeutung 


tragen. Wie bereits in Abschnitt 2.3.8/dargelegt, ist die Disambiguierung von Wortbedeutungen eines 


der ältesten Probleme der Computerlinguistik. Da die Bestimmung der Bedeutung der Einzelwörter 
einer natürlichsprachlichen Sequenz die Grundlage vieler weiterer Analysen ist, ist die Korrektheit 
von besonderer Bedeutung. 


Auch im Kontext von Prof, stellt die Auflösung von Mehrdeutigkeiten eine wesentliche Heraus- 
forderung dar. Die eindeutige Interpretation einzelner Wörter erleichtert später die Erkennung der in 
einer Aussage behandelten Themen und den Aufbau des sprachlichen situativen Kontextes (siehe 


[Abschnitt 7.3]und|7.4). Ebenso können nur für disambiguierte Wörter passende Synonyme ermittelt 
werden (siehe|Abschnitt 7.4). Synonyme wiederum erhöhen die Flexibilität der Quelltexterzeugung 
(siehe Abschnitt 7.8]und|8. 1). 


Für Prov, wurden zwei PARSE-Agenten zur Auflösung von Wortmehrdeutigkeiten implementiert. 
Der erste Agent dient als Adapter zur Web-API von Babelfy, das WordNet zur Disambiguierung 


verwendet [MRN14], der zweite implementiert eine angepasste Variante des von Mihalcea und 


Csomai vorgestellten Verfahrens zur Disambiguierung basierend auf Wikipedia |Mih07} MCO7]. 


Diese Mehrfachlösung für dasselbe Problem wurde umgesetzt, da beide Ansätze Vor- und Nachteile 
mit sich bringen. Babelfy verwendet als diskretes Bedeutungsinventar Synsets aus WordNet (siehe 


[Abschnitt 2.3.15.1). Das bedeutet, jedem zu disambiguierenden Wort wird ein Synset aus WordNet 


zugewiesen, welches die Bedeutung im aktuellen Kontext beschreibt. Die Verwendung von WordNet- 
Synsets ermöglicht die Disambiguierung von Nomen, Verben, Adjektiven und Adverbien, wohingegen 
sich eine Disambiguierung auf Grundlage von Wikipedia nur für Nomen eignet. Zusätzlich basieren 
die meisten Verfahren zur Auflösung von Wortmehrdeutigkeiten auf WordNet; damit lassen sich 
die für Prof; erzielten Ergebnisse besser mit anderen Ansätzen vergleichen. Hinsichtlich der 
Projekt-Organisation von Prof, bedeutet dies zusätzlich, dass Babelfy gegebenenfalls zu einem 
späteren Zeitpunkt durch einen anderen Ansatz ersetzt werden kann, ohne dass andere Agenten, die 
Wortbedeutungen verwenden, davon beeinflusst werden. 


Ein spezialisierter Ansatz unter Verwendung von Wikipedia hat trotz der mannigfaltigen Möglichkei- 
ten von Babelfy seine Daseinsberechtigung. Zunächst bietet Wikipedia, verwendet man die einzelnen 
Artikel(-Bezeichnungen) als Bedeutungsinventar, einen deutlich größeren Umfang, wenn auch nur 
für Nomen. Außerdem wird die Wikipedia ständig überprüft und erweitert; somit steigern sich sowohl 
Qualität als auch Quantität des Bedeutungsinventars stetig. Da Disambiguierung heutzutage meist 
durch maschinelles Lernen gelöst wird, ist die Qualität des gelernten Modells abhängig von der zur 
Verfügung stehenden Datengrundlage. Üblicherweise werden hierfür Korpora händisch annotiert; in 
diesem Fall bedeutet das, ein oder mehrere menschliche Annotatoren markieren einzelne Wörter mit 
der jeweils passenden Bedeutung. Dies ist aufgrund der Größe des Bedeutungsinventars und häufig 
auftretender verwandter Bedeutungen eine aufwendige und fehleranfällige Aufgabe. Aus diesem 
Grund werden die meisten Verfahren nur auf vergleichsweise kleinen Datensätzen trainiert. Nutzt 
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man die Artikelbezeichnungen aus Wikipedia als Bedeutungsinventar und Verknüpfungen (engl. 
link) als Instanzen der jeweiligen Bedeutungen in einem sprachlichen Kontext, umgeht man dieses 
Problem. So kann die gesamte Wikipedia als Trainingsdatensatz für einen Klassifikator genutzt 
werden. 


7.2.1 Implementierung des Babelfy-Agenten zur 
Disambiguierung 


Wie zuvor erwähnt, dient der Agent als Adapter für die von Babelfy bereitgestellte Web-API. 
Babelfy verwendet WordNet-Synsets zur Beschreibung von Wortbedeutung; das bedeutet, die Menge 
aller Synsets bilden das Bedeutungsinventar bzw. den Etikettensatz. Babelfy basiert auf BabelNet, 
einem semantischen Graphen, der aus einer automatischen Verschmelzung von WordNet und 
Wikipedia entstanden ist. Konzepte, das heißt Synsets und Wikipedia-Artikel, bilden die Knoten des 
Graphen, die Kanten werden anhand der Relationen zwischen den Konzepten erzeugt (beispielsweise 
Oberbegriff-Beziehungen oder Teil-Ganzes-Beziehungen). 


Darüber hinaus sind die Konzepte mit Konzepten anderer lexikalischer Datenbanken verknüpft, unter 


anderem FrameNet und VerbNet (siehe Abschnitt 2.3.15). Natürlichsprachliche Sequenzen können 


mithilfe des BabelNet-Graphen wie folgt disambiguiert werden: Zunächst werden innerhalb einer 


Sequenz zusammenhänge Phrasen extrahiert; diese entsprechen im Wesentlichen den in|Abschnitt 6.2 


beschriebenen Chunks. Die Phrasen werden anschießend auf Konzepte des BabelNet-Graphen 
abgebildet, wobei Mehrfachabbildungen möglich sind. Das bedeutet, jede Phrase wird zunächst mit 
einer (potenziell großen) Menge von Bedeutungskandidaten verknüpft. Die Bedeutungskandidaten 
für alle Phrasen werden anschließend im Graph verbunden, indem die kürzesten Pfade zwischen 
jeweils zwei Konzepten bestimmt werden. Zuletzt wird heuristisch der dichteste Graph approximiert, 
wobei zu jeder Phrase nur ein Bedeutungskandidat enthalten sein darf. Dieser Graph enthält 
die wahrscheinlichsten Bedeutungen für die Phrasen der natürlichsprachlichen Sequenz; den 
Bedeutungen wird zudem jeweils eine Konfidenz zugeordnet. 


Der Pro/,-Agent konvertiert die im Pro /,,-Graphen vorhandenen sprachlichen Informationen 
zunächst in das von Babelfy akzeptierte Format; das Ergebnis (ein Wordnet-Synset samt Konfidenz) 
wird wiederum in den Proy,,-Graphen eingepflegt. Der Agent entnimmt dem Graphen alle 
Knoten des Typs Token, was den einzelnen Wörtern der natürlichsprachlichen Eingabe entspricht. 
Anschließend wird die Tokensequenz in das Datenformat von Babelfy überführt und an die Web-API 
übermittelt. Die Rückgabe wird entgegengenommen und anhand der von Babelfy mitgelieferten 
Konfidenz entschieden, ob das Ergebnis in die Knoten zurückgeschrieben wird oder nicht!>| Im 
Knoten wird die Kennung (ID) und die Glosse des Synsets gespeichert. Zusätzlich wird die Konfidenz 
der Babelfy-Antwort sowie die gesamte Antwort als Objekt hinterlegt. 


3 Der Schwellenwert lässt sich konfigurieren und ist mit 0,3 voreingestellt. 
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7.2.2 Implementierung des Agenten für Disambiguierung 
basierend auf Wikipedia 


Die Implementierung des Agenten ist eine Adaption des von Mihalcea und Csomai vorstellten 
Verfahrens [Wei+19]. Die zugrundeliegende Idee ist wie folgt. Treten Begriffe in Wikipedia-Artikeln 
das erste Mal auf, erhalten sie vom Verfasser eine Verknüpfung zum entsprechenden erklärenden 
Artikel in der Wikipedia; das bedeutet, die Bedeutung eines Begriffs im sprachlichen Kontext wird 
durch das Hinzufügen der Verknüpfung zu einem erklärenden Artikel eindeutig beschrieben. Die 
einzelnen Verknüpfungen bilden somit die Instanzen eines Bedeutungsinventars, das aus allen 
Wikipedia-Artikeln besteht. Da die Verknüpfungen manuell von den Erstellern (oder Bearbeitern) 
des Artikels eingefügt werden, können diese als korrekt angesehen werden '*] 


Die Bedeutungsinstanzen und der sprachliche Kontext können anschließend genutzt werden, um 
ein beliebiges überwachtes Lernverfahren einzusetzen; verwendet wurde, wie im Original-Ansatz, 
ein Naive-Bayes-Klassifikator. Dieser zeichnet sich dadurch aus, dass er gut mit einer Vielzahl 
unterschiedlich geartete oder ähnlich relevanter Eingabe-Eigenschaften (engl. input features) 
umgehen und auch auf großen Datenmengen eingesetzt werden kann — sowohl hinsichtlich des 
Trainingsaufwands als auch etwaiger Überanpassungseffekte [MN98}. Als Eingabe-Eigenschaften 
werden, wie auch bei Mihalcea und Csomai, jeweils die drei Wörter vor und nach dem zu 
disambiguierenden Wort samt ihrer Wortart verwendet!>| sowie je das erste Nomen und das 
erste Verb links und rechts des Wortes. Zusätzlich wird das eigentlich zu disambiguierende Wort 
verwendet. Dieses wird im Gegensatz zum Original-Ansatz allerdings zehnfach gewichtet. Mihalcea 
und Csomai verwenden in ihrem Ansatz zusätzlich sogenannte Kontext-Worter; diese sind lediglich 


die am häufigsten auftretenden Wörter in einem Paragraphen. Da in gesprochener Sprache keine 


Paragraphen vorhanden sind, wurde diese Art von Eingabe-Eigenschaft ausgelassen. Abbildung 7.1 


zeigt einen Ausschnitt aus der Wikipedia, inklusive dem zu disambiguierenden Wort, dem Zieletikett, 
den extrahierten Eigenschaften und dem daraus resultierenden Vektor. 


Um den Klassifikator zu trainieren, wurde ein vollständiger Auszug der englischsprachigen Wikipedia 
(Stand August 2017) verwendet. Der Auszug wurde wie folgt vorverarbeitet. Zunächst wurden 
alle Begriffserklärungsseiten entfernt. Diese erfüllen zwar in der Theorie genau die Aufgabe der 
Disambiguierung; allerdings werden diese nicht konsequent eingesetzt. Häufig fehlen Begriffser- 
klärungsseiten, obwohl mehrere Artikel für den gleichen Begriff existieren, oder Verknüpfungen 
in Artikeln werden direkt zu den Zielartikeln vorgenommen, ohne auf die entsprechende Begriffs- 
erklärungsseite zu verweisen. Außerdem enthalten Begriffserklärungsseiten ausschließlich die 
jeweiligen Begriffe und eine Kurzbeschreibung. Das bedeutet, dass der sprachliche Kontext kaum 
nützlich ist, um einen Klassifikator zu trainieren. Aus demselben Grund wurden auch Listen und 
Info-Boxen entfernt. Listen enthalten zudem nur selten Verknüpfungen, weshalb sie für den Ansatz 
ohnehin ungeeignet sind; dasselbe gilt auch für Zitate. Zuletzt werden alle Wikipedia-Artikel (und 
zugehörige Verknüpfungen) entfernt, die einen Eigennamen (engl. Named Entity) beschreiben 


4 Zumindest ist anzunehmen, dass durch Domänenexperten hinzugefügte Verknüpfungen eher korrekt sind, als 


beispielsweise das Annotieren von Synsets durch beliebige Annotatoren. 


5 Stoppwörter werden hierbei ignoriert. 


180 


7.2 Disambiguierung von Wortbedeutungen 


bar (music) 


time . Every fourth bar of each verse and the outro 

time every fourth bar * 10 each verse outro 

NN DT JJ NN DT NN NN 
riffing time verse cut 


Abbildung 7.1: Beispielhafter Wortvektor zum Wort bar: Die Abbildung zeigt einen Auszug aus Wikipedia (kursiv), 
anhand dessen der Wortvektor erzeugt wird. Die Umgebungsmerkmale (in Schreibmaschinenschrift) setzen sich 
zusammen aus dem Wort bar an sich mit zehnfacher Gewichtung, den jeweils drei Wörtern links und rechts des Wortes 
(rot hervorgehoben) mit Ausnahme von Stopwörtern und Satzzeichen, den Wortarten der Umgebungswörter (gelb), sowie 
jeweils den ersten Nomen (lila) und Verben (blau) links und rechts des Wortes. Im Beispiel befinden sich die nächsten 
Verben außerhalb des Auszugs und sind daher am Rand abgedruckt. Das Wortbedeutungs-Etikett zum Wort bar ist fett 
gedruckt und in einem Kasten dargestellt. 


(siehe [Abschnitt 2.3.4.5). Eigennamen sind für gewöhnlich eindeutig und müssen daher nicht 


disambiguiert werden. Eine Hinzunahme dieser Artikel würde zu einer deutlichen Vergrößerung 
des Bedeutungsinventars führen, was wiederum einen erhöhtem Trainigsaufwand und potenziell 
mehr Fehlklassifikationen nach sich zieht. 


Nach der Vorverarbeitung verbleiben 5.188.470 Trainingsinstanzen (Verknüpfungen zu Wikipedia- 
Artikeln). Davon sind 283.173 unterschiedlich. Die Menge dieser einzigartigen Bedeutungen bilden 
das Bedeutungsinventar, welches somit eine Mächtigkeit von 283.173 besitzt. 136.964 Instanzen 
treten nur genau einmal als Verknüpfung in einem Artikel auf. Diese einmalig auftretenden 
Instanzen machen damit 2,64% aller Instanzen und 46,37% der Bedeutungen aus. Insbesondere 
letztere Beobachtung ist problematisch für überwachte Lernverfahren; schließlich bedeutet sie, 
dass fast die Hälfte der Klassen des Bedeutungsinventars nur mit einer Instanz im Trainingskorpus 
vertreten sind. Der Klassifikator kann also nicht über unterschiedliche Instanzen (und deren 
unterschiedliche Kontexte) generalisieren. Zusätzlich muss bei der Evaluation davon ausgegangen 
werden, dass bei einer Aufteilung des Korpus in Trainings- und Testmenge die Testmenge zuvor 
unbekannte Instanzen enthält, die folglich nicht klassifiziert werden können. 


Mit den Instanzen kann ein Klassifikator, in diesem Fall Naive-Bayes, trainiert werden. Im Kontext 
von Prof% passiert dies einmalig offline mithilfe der Rahmenarchitektur Weka [HDW94} Hal+09]. 
Der zugehörige PARSE-Agent lädt ein so erzeugtes Modell. Anschließend wird die Eingabe 


ausgelesen — wiederum anhand von Knoten des Typs Token. Die vollständige Eingabe wird dem 
Klassifikator übergeben und die wahrscheinlichste Bedeutung anschließend in einem neuen Attribut 
im jeweiligen Knoten hinterlegt. Klassifiziert werden jedoch ausschließlich Nomen, die keine 


Eigennamen darstellen; beide Informationen werden während der Vorverarbeitung erzeugt (siehe 


Abschnitt 6.2|und | Abschnitt 6.3). 
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7.2.3 Evaluation des Agenten für Disambiguierung basierend 
auf Wikipedia 


Der Agent zur Disambiguierung basierend auf Wikipedia bzw. der verwendete Klassifikator wurde 
auf zwei unterschiedliche Arten evaluiert. Zunächst wurde der Ansatz auf dem Wikipedia-Auszug 
evaluiert, indem ein Großteil zum Training und der Rest zum Testen verwendet wurde. Um die 


Anwendbarkeit für Proy,, zu prüfen, wurde zusätzlich auf einem Teil des in |Abschnitt 5.5.2 


vorgestellten Korpus evaluiert. 


Die Evaluation auf dem Wikipedia-Auszug wurde als angepasste Zehnfach-Kreuzvalidierung 
durchgeführt. Bei der üblichen Zehnfach-Kreuzvalidierung wird der gesamte Datenbestand in zehn 
gleiche Teile geteilt und anschließend auf neun dieser Teile trainiert und auf dem zehnten getestet. 
Dieses Vorgehen wird zehnmal wiederholt und der Testteil getauscht, bis jeder der zehn Teile einmal 
als Testmenge verwendet wurde. Da eine Aufteilung in zehn gleichgroße Teile bei fast 5,2 Millionen 
Instanzen je Durchlauf 520000 Testinstanzen und in Summe 5,2 Millionen Testinstanzen erzeugen 
würde, was wiederum zu erheblichen Aufwand bei der Bestimmung der korrekten Klassifizierungen 
führt, wurde eine randomisierte Variante der Zehnfach-Kreuzvalidierung verwendet. Hierbei werden 
für jeden Durchlauf 10000 Testinstanzen zufällig gezogen und der Rest für die Trainingsmenge 
verwendet. Die Ergebnisse werden wie üblich über die zehn Durchläufe gemittelt. 


Da die zu klassifizierenden Instanzen bekannt sind, kann je klassifizierter Testinstanz ausschließlich 
zwischen richtig klassifiziert und falsch klassifiziert unterschieden werden. Eine Unterscheidung 
nach falsch positiven und negativen sowie nach richtig positiven und negativen Klassifizierungen ist 
nicht sinnvoll. Mihalcea und Csomai unterscheiden diese trotzdem, indem sie ihren Klassifikator 
instrumentieren und keine Klassifizierungen für Wörter mit (zum Trainingszeitpunkt) unbekannter 
Oberflächenform zulassen. Dies betrifft vor allem die oben diskutierten nur einmalig auftretenden 
Instanzen, die Teil der Testmenge sind. Durch den Ausschluss dieser Instanzen wird das Klas- 
sifikationsergebnis verbessert, da diese immer falsch klassifiziert werden würden. Gleichzeitig 
kann auch wieder zwischen richtig positiven, richtig negativen und falsch negativen Klassifika- 
tionen unterschieden werden, weshalb die Verwendung von Präzision, Ausbeute und F; in der 
Original-Veröffentlichung sinnvoll ist. Allerdings erfordert diese Art der Auszählung manuellen 
Aufwand. Dies könnte ein Grund dafür sein, warum Mihalcea und Csomai ihren Ansatz nur 
auf 85 zufällig gezogenen Wikipedia-Artikeln evaluieren. Dieser Auszug enthielt 7286 Instanzen. 
Der hier vorgestellte Ansatz wurde hingegen auf zehnmal 10000 Instanzen getestet. Außerdem 
wird nur die Genauigkeit der Klassifikationsergebnisse angegeben, weshalb ein Vergleich mit der 
Original-Veröffentlichung nur bedingt möglich ist. 


Tabelle 7.7| fasst die Ergebnisse der randomisierten Zehnfach-Kreuzvalidierung zusammen. Die 


Werte schwanken über die unterschiedlichen Durchläufe nur geringfügig (min: 0,789, max: 0,807). 
Insgesamt werden knapp 80% aller Testinstanzen korrekt klassifiziert. Dies entspricht ungefähr der 
Qualität aktueller Ansätze [|RCN17]. Mihalcea und Csomai geben eine Ausbeute von 0,831 ar" 


16 Die Ausbeute, wie von Mihalcea und Csomai beschrieben, entspricht am ehesten der hier verwendeten Genauig- 


keit [MC07). 
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Tabelle 7.7: Evaluationsergebnisse für den Agenten zur Disambiguierung auf dem Wikipedia-Datensatz: Als Datengrund- 
lage wurde der Wikipedia-Auszug verwendet und zehn (Test-)Läufe auf je 10000 Testinstanzen durchgeführt. 


Lauf 1 2 3 4 5 6 7 8 9 0 Ø 
Genauigkeit | 0,802 0,802 0,797 0,807 0,794 0,797 0,807 0,800 0,795 0,789 0,799 


Tabelle 7.8: Evaluationsergebnisse für den Agenten zur Disambiguierung auf dem Pro /”-Datensatz. 


Präzision Ausbeute Fı 
0,894 0,876 0,885 


Die hier vorgestellte Adaption erzielt somit ähnliche Ergebnisse wie in der Original-Veröffentlichung 
angegeben, obwohl der Testdatensatz deutlich größer ist und die Zählweise von Mihalcea und 
Csomai deutlich bessere Werte für die Ausbeute erzeugt. 


Nachdem gezeigt werden konnte, dass der Klassifikator grundsätzlich funktioniert, wird nachfolgend 
die Anwendbarkeit für Pro/,, evaluiert. Hierfür wurde der Klassifikator auf dem vollständigen 
Wikipedia-Auszug trainiert und anschließend auf einem Teil des in{Abschnitt 5.5.2|vorgestellten 
Korpus getestet. Die Testmenge umfasst Transkriptionen zu den ersten acht Szenarien, in Summe 
168 Transkriptioner|'”| Für jede Transkription wurde eine Musterlösung erstellt; das bedeutet, dass 
jedem Nomen die passende Bedeutung aus dem Bedeutungsinventar (einem Artikel aus Wikipedia) 
zugewiesen wurde. Die Transkriptionen enthalten insgesamt 1060 Nomen und damit ebenso viele 
zu disambiguierende Instanzen. 


Um die Performanz des Klassifikators im Kontext von Proyf,, bemessen zu können, wurde 


das vollständige Vorverarbeitungsfließband, wie in [Kapitel 6| beschrieben mit Ausnahme der 


automatischen Spracherkennung, durchlaufen. Benötigt werden für die Klassifikation jedoch 
ausschließlich die Wortarten, die von der Stufe für seichte Sprachverarbeitung (siehe Abschnitt 6.2) 
emittiert werden, sowie die erkannten Eigennamen (siehe Abschnitt 6.3). Anschließend wurde der 


Agent ausgeführt. Da dieser alle Nomen klassifiziert und die korrekte Erkennung der Wortarten von 
der Vorverarbeitung abhängt, ist die Menge der zu klassifizierenden Instanzen unbekannt. Aufgrund 
fehlerhaft klassifizierter Wortarten kann es somit zu fehlenden (falsch negativ) und überflüssigen 
Klassifikationen (falsch positiv) kommen. Zusätzlich erzeugen falsche Klassifikationen an einem 
(korrekt erkanntem) Nomen sowohl eine falsch positive als auch eine falsch negative Etikette. 


Die Ergebnisse für die Messung auf dem Proy/,,-Datensatz sind in [Tabelle 7.8 dargestellt. Die 


Ergebnisse erscheinen zunächst unerwartet. Eigentlich wäre zu erwarten gewesen, dass die Qualität 
der Klassifikation abnimmt, da das Modell zum einen auf einer anderen Domäne (Wikipedia- 
Artikel) trainiert wurde und zum anderen die Klassifikationsaufgabe komplexer ist (zusätzliche 
Bestimmung der zu klassifizierenden Instanzen anhand der Wortart). Stattdessen attestiert die 
Messung dem Agenten sehr gute Werte für Präzision (0,894), Ausbeute (0,876) und Fı-Maß (0,885). 


Wenn für die Beschreibung eines Probanden zu einem Szenario mehrere Aufnahmen im Korpus existieren (z.B. durch 
Bitte um einen erneuten Versuch), so wurde für die hiesige Evaluation nur die beste Transkription verwendet. Ebenso 
wurden aus den Transkriptionen zu Szenario 8 (Dialog-Szenario) nur die Ersteingaben der Probanden verwendet. 
Der einzige in den Transkriptionen auftretende Eigenname ist „Armar“, der in allen Fällen erkannt wurde. 
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Lediglich 21 Nomen konnten nicht klassifiziert werden, weil die Wortarterkennung fehlerhaft 
war. Die Eigennamenerkennung funktionierte in allen Fällen korrekt und führte somit zu keinen 
fehlenden Instanzen. Weder die Wortarterkennung, noch die Eigennamenerkennung haben darüber 
hinaus falsch positive Klassifikationen erzeugt. An diesen Ergebnissen lässt sich erkennen, dass 
etwaige Fehler aus der Vorverarbeitung nur geringen Einfluss auf die Ergebnisse des Agenten für 
Disambiguierung basierend auf Wikipedia haben. 


Ein Großteil der Fehlklassifikationen kann auf fehlende Bedeutungen im Bedeutungsinventar 
zurückgeführt werden. Beispielsweise gibt es keinen Wikipedia-Artikel zum Konzept front (deutsch: 
Vorderseite) im Sinne von the side that is forward or prominent (deutsch: die zugewandte oder 
markante Seite). Der Klassifikator vergibt in diesen Fällen eine falsche Etikette. Abgesehen von 
diesen seltenen Fällen funktioniert die Disambiguierung basierend auf Wikipedia auf dem Proy/_,- 
Datensatz sehr gut. Die starken sprachlichen Unterschiede (deskriptive Texte in Wikipedia gegenüber 
potenziell grammatikalisch fehlerhaften Äußerungen im Imperativ im Proy,,-Datensatz) scheinen 
die Klassifikation nur geringfügig negativ zu beeinflussen. Vielmehr können die vergleichsweise 
einfachen natürlichsprachlichen Äußerungen, die nur weit verbreitete Konzepte wie Kühlschrank, 
Tisch oder Glas, die zudem in ihrer natürlichen Umgebung (einer Küche) auftreten, sehr gut 
disambiguiert werden. 


7.3 Modellierung und Etikettierung von 
Diskurs-Themen 


Das Verständnis der behandelten Themen in einem Diskurs zwischen Mensch und Maschine ist ein 
wichtiger Baustein, um die Intention einer Aussage interpretieren zu können. Themen-Extraktion, 
-Modellierung und -Etikettierung sind seit jeher Felder der Computerlinguistik, denen große Beach- 
tung geschenkt wird (siehe|Abschnitt 2.3.9). Die meisten Ansätze betrachten jedoch geschriebene 
Dokumente oder Dokumentmengen, da Themen-Modellierung hauptsächlich zur Verarbeitung 
großer, geschriebener Datensätze eingesetzt wird. Dort können beispielsweise automatische Zu- 
sammenfassungen generiert oder der Datensatz strukturiert werden. Für gesprochene Sprache sind 
diese Themenfelder kaum erforscht, dabei ist gerade hier das Verständnis des Themenbereichs 
von besonderer Bedeutung. Mithilfe eines Themen-Modells könnten zum Beispiel automatisch 
Wortfehler automatischer Spracherkenner korrigiert werden oder ein Dialog-System könnte gezieltere 
Rückfragen an den Nutzer stellen. 


Im Kontext von Prof, können Themen-Etiketten vor allem genutzt werden, um externe Da- 
tenquellen präziser nach Informationen zu durchsuchen. So können erkannte Themenbereiche 
beispielsweise auf Mikro-Theorien in Cyc abgebildet werden, um Anfragen auf diesen Teilraum von 
Entitäten und Regeln zu beschränken. Eine konkrete Anwendung für die Themen-Etikettierung im 


Rahmen von Pro/,, wird mit der Ontologie-Auswahl in/Abschnitt 7.9) vorgestellt. 
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7.3.1. Implementierung des Agenten zur Modellierung und 
Etikettierung von Diskurs-Themen 


A 


Für Prof, wurde ein PARSE-Agent entwickelt, der Themen implizit modelliert und anschließend 
mit Artikeln aus Wikipedia (als Stellvertreter für ein Themen-Konzept) etikettiert [Wei+19} 


Weit+20a]. Neben den bekannten Herausforderungen bei der Verarbeitung gesprochener Sprache, 


wie Wortfehlern, grammatikalisch falsche Formulierungen, Disfluenzen, etc., ergibt sich für 
die Modellierung von Themen im Kontext von Prof% eine weitere: die natürlichsprachlichen 
Äußerungen sind vergleichsweise kurz. Gängige Verfahren zur Modellierung von Themen setzen 
dagegen lange Dokumente bzw. Dokumentmengen voraus. 


Die meisten modernen Ansätze stützen sich dabei auf die von Blei et al. entwickelte Latent Dirichlet 
Allocation (kurz LDA) [BNJ03} |MSZ07} Mag+09}[Ble12}[Hul+13} Hin+13]. LDA ist ein generatives 
probabilistisches Modell für Bestände diskreter Datenpunkte wie Textdokumentsammlungen. 


Angewendet auf ebendiese wird ein Themen-Modell anhand von Wort-Vorkommen über alle 
Dokumente der Sammlung bestimmt. Das Verfahren erzeugt daraus eine feste Menge an Themen, 
die aus Wörtern bestehen, welche häufig zusammen auftreter]!| Um LDA sinnvoll verwenden 
zu können, sind dementsprechend längere Dokumente als die im Kontext von Prof, üblichen 
Äußerungen nötig. Zusätzlich soll die Anzahl an Themen je Äußerung variabel gestaltet werden, 
was mit LDA ebenfalls nicht möglich ist. Ansätze, die auf gesprochene Sprache spezialisiert sind, 
verwenden meist phonetische Informationen, um ein Themen-Modell zu erzeugen, vergeben aber 


keine Etiketten [Cer09} [Haz+1 1} |Siu+14]. 


Der vorgestellte Ansatz modelliert die Themen implizit über Graphzentralitätsmetriken auf einem 


Thememgraphen, der aus DBpedia extrahiert wurde (siehe|Abschnitt 2.3.15.5). Dieses Vorgehen 


hat folgende Vorteile: Durch die Verwendung der Graphzentralität kann eine variable Anzahl an 
Themen auch für kurze natürlichsprachliche Äußerungen erzeugt werden. Zusätzlich können die als 
zentral identifizierten Konzepte aus DBpedia als Etiketten für die modellierten Themen verwendet 
werden. 


Zur impliziten Modellierung der Themen wird zunächst davon ausgegangen, dass alle Nomen in 
einer Äußerung miteinander in Verbindung steherl?] Ausgehend von den Nomen werden sogenannte 
Bedeutungsgraphen aufgebaut. Dazu wird zunächst für jedes Nomen seine Bedeutung im sprachlichen 
Kontext (in Form eines zugehörigen Wikipedia-Artikels) bestimmt (siehe [Abschnitt 7.2); diese 
Wortbedeutung wird als initiale Bedeutung des Bedeutungsgraphen bezeichnet. Anschließend wird 


DBpedia als Graph aufgefasst, wobei die Knoten den Konzepten bzw. Artikeln und die Kanten den 
Relationen entsprechen. Aus diesem DBpedia-Graphen werden anschließend Teilgraphen extrahiert, 
indem ausgehend von der initialen Bedeutung Relationen bis zu einer Tiefe von zwei verfolgt 
werden?!| Die verwendeten Relationen sind in Tabelle 7.9|aufgefiihrt. 


LDA kann dementsprechend als Wort-Clustering-Verfahren aufgefasst werden. 

Diese offensichtlich falsche Annahme wird später verworfen und das Analysergebnis entsprechend interpretiert. 
Um möglichst spezifische Themen zu erhalten, wäre es besser nur je eine Relation zu traversieren. Allerdings 
entstehen so sehr kleine Graphen und es wird anschließend schwierig, überhaupt gemeinsame Konzepte unter den 
Bedeutungen zu finden. 
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Tabelle 7.9: DBpedia-Relationen zum Aufbau des Bedeutungsgraphen. 


Die Relation verbindet ein Konzept mit 


determs:subject seiner Wikipedia-Kategorie 

skos:broader einem allgemeineren Konzept 

skos:narrower einem spezielleren Konzept 

purlg:hypernym einem übergeordneten Konzept (Hyperonym) 

purlg:meronym einem Konzept, das einen zugehörigen Teil ausmacht (Meronym) 
purlg:synonym einem synonymen Konzept 

rdfs:type seiner zugehörigen DBpedia-Entität 

rdfs:subClassOf seiner in DBpedia definierten Unterklasse 


rdfs:seeAlso einem verwandten Konzept 


Die einzelnen Bedeutungsgraphen werden anschließend zu einem sogenannten Themengraph 
vereinigt, indem Knoten, die das gleiche Konzept repräsentieren, vereinigt werden. Der Themengraph 
kann aus nicht verbundene Teilgraphen bestehen. Statt wie in verwandten Arbeiten vorgeschlagen, 


nur den größten Teilgraph weiterzuverarbeiten [Hul+13], wird diese Eigenschaft genutzt, um 


unterschiedliche Themen-Bereiche abzudecken. Hierzu wird davon ausgegangen, dass jeder Teilgraph 
ein oder mehrere Themen der ursprünglichen Äußerung beinhaltet. Gemeinsam mit der im Folgenden 
beschriebenen Bestimmung von Themen-Etiketten werden damit die Themen impliziert modelliert. 


Die Auswahl der Etiketten hängt von der Menge n solcher Etiketten ab, die pro natürlichsprachlicher 
Äußerung erzeugt werden sollen. Dabei muss folgende Abwägung getroffen werden: Einerseits 
werden Themen sehr allgemein oder semantisch unpassend, wenn mehr Themen ausgewählt werden. 
Andererseits führt die Erzeugung von nur wenigen Themen-Etiketten dazu, dass gegebenenfalls 
Bedeutungen (von Nomen) der natürlichsprachlichen Äußerung durch kein Thema repräsentiert 
werden. Aus diesem Grund Kann der Agent unterschiedlich konfiguriert werden, entweder mit 
einer festen Anzahl an zu erzeugenden Themen-Etiketten oder mit einem Vielfachen der initialen 
Bedeutungsknoten. Die Standard-Konfiguration ist so gewählt, dass doppelt so viele Themen- 
Etiketten erzeugt werden wie es (unterschiedliche) initiale Bedeutungsknoten im Themengraph gibt. 
Dieser Wert wurde empirisch ermittelt, wobei der Fokus auf die Maximierung der Abdeckung der 
Themen-Bereiche gelegt wurde (siehe hierzu auch [Abschnitt 7.3.2). 


Zur Auswahl der Themen-Etiketten kann der Agent mit einer von zwei Strategien konfiguriert werden: 
Höchste Konnektivität oder Maximale Abdeckung. Die Strategie Höchste Konnektivität wählt Knoten 
aus, die eng mit den initialen Bedeutungsknoten verbunden sind. Hierzu wird gezählt, in wie vielen 
Bedeutungsgraphen (nicht Themengraphen) jeder Knoten auftritt; dieser Wert wird im Folgenden 
als Konnektivität bezeichnet. Da die Konnektivität in den meisten Fällen für eine große Menge von 
Knoten gleich ist, wird als zweites Kriterium ein Graphzentralitätswert für jeden Knoten bestimmt. 
Da viele Metriken zur Bestimmung der Graphzentralität nicht mit unverbundenen Teilgraphen 
umgehen können, wird eine Abwandlung des von Brin und Page entwickelten PageRank-Algorithmus 
mit Ausrichtungsfaktor als Bewertungsfunktion N(V;) verwendet[BP98} CMMO09; CMO09]. Die 
Funktion Q(V;) bewertet alle Knoten V und Kanten Æ des Themengraphen T = (V, Æ) anhand der 
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eingehenden Kanten E.;n(V;) je Knoten (V;) sowie der Bewertung (2(V;) und ausgehenden Kanten 
Eaus(V;) der benachbarten Knoten: 


Q(V;) 
Q(Vi)=(1-d)*B(Vj)+d*x Yo A+ (7.1) 
j€Ecin(Vi) |Eaus(V;)| 


Die Konstante d ist der sogenannte Dämpfungsfaktor (engl. damping factor), dieser wird im Agenten 


(wie auch von Brin und Page empfohlen) auf den Wert 0.85 gesetzt, ist aber konfigurierbar [BP98]. 


Zur Berechnung des Ausrichtungsfaktor B(V;) wird die Menge der initialen Bedeutungsknoten 
Finit verwendet. Diese besteht aus allen Knoten, die die initialen Bedeutungen der Nomen der 
natürlichsprachlichen Äußerung beschreiben (siehe oben). Der Ausrichtungsfaktor B(V;) berechnet 
sich wie folgt: 


0 , Vee Dont 
Bier i (7.2) 
m) —— ‚VE Dina 
| 


Der Ausrichtungsfaktor sorgt dafür, dass Knoten umso stärker gewichtet werden, je näher sie den 
initialen Bedeutungsknoten des Thememgraphen sind. Die Strategie Höchste Konnektivität ordnet 
die Knoten anschließend gemäß ihrer Konnektivität und bei gleichen Konnektivitätswerten anhand 
der Bewertungsfunktion (2. Aus dieser sortierten Menge werden die n besten als Themen-Etiketten 
ausgewählt. 


Die Strategie Höchste Konnektivität hat allerdings den Nachteil, dass Themen, die in der natür- 
lichsprachlichen Äußerung nur durch wenige Wörter repräsentiert werden, von anderen Themen 
dominiert werden, da sowohl die Konnektivität als auch Q in diesem Fall geringe Werte annehmen. 
Dieser Nachteil ist die Motivation für die zweite Strategie: Maximale Abdeckung. Diese wählt das 
erste Thema nach dem gleichen Verfahren wie die Strategie Höchste Konnektivität aus. Die weiteren 
Themen werden jedoch iterativ wie folgt bestimmt: Solange noch nicht alle initialen Bedeutungskno- 
ten durch ein Thema repräsentiert werden, wird als nächstes Thema dasjenige gewählt, welches die 
meisten der noch nicht repräsentierten Bedeutungsknoten repräsentiert. Bei Gleichstand wird wie 
zuvor Q als zweites Auswahlkriterium verwendet. Sobald alle initialen Bedeutungsknoten abgedeckt 
sind, wird mit den höchstbewerteten Themen-Etiketten (gemäß der Strategie Höchste Konnektivität) 


aufgefüllt bis n erreicht ist. 


Der Agent hinterlegt die Ergebnisse anschließend folgendermaßen im Graphen: Es wird ein neuer 
Knotentyp topics angelegt und für jede Eingabe ein Knoten diesen Typs erzeugt. Im Knoten 
werden die Themen-Etiketten mit zugehöriger Konfidenz als Attribute hinterlegt. Die Konfidenz 


entspricht dabei dem (2-Wert des zugehörigen Knotens im Themengraph. 
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~ home BEN 
home 
zZ appliance > 
S, (fridge) 
S, (dishwasher) 
S, (orange) 


© initialer Bedeutungsknoten 
@ Strategie Höchste Konnektivität 
@ Strategie Maximale Abdeckung 


fruit 


appliance 


Abbildung 7.2: Exemplarische Bedeutungs- und Themengraphen: Dargestellt sind die Bedeutungs- (S;) und Themen- 
(Teil-)Graphen (Tj) zur natürlichsprachlichen Sequenz „take the orange from the fridge and close the dishwasher 
afterwards“. Die initialen Bedeutungsgrahen sind blau-gestreift dargestellt. Knoten, die mittels der Strategie Höchste 
Konnektivität als Themen-Etiketten ausgewählt wurden, sind orange eingefärbt und Knoten, die anhand der Strategie 
Maximale Abdeckung ausgewählt wurden, sind rot eingefärbt. Die Menge der (Knoten-)Kandidaten mit gleicher 
Konnektivität in Tı sind grün hinterlegt. 
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In diesem Beispiel soll die Erzeugung von Themen-Etiketten mithilfe der beiden Strategien 
Höchste Konnektivität und Maximale Abdeckung anhand einer natürlichsprachlichen Sequenz 
demonstriert werden. Einfachheitshalber werden im Beispiel nur zwei Themen-Etiketten 


erzeugt (n = 2). Die Beschreibung nimmt dabei Bezug auf|Abbildung 7.2|in der die einzelnen 


Schritte bzw. Auswahlstrategien nachvollzogen werden können. 


Natürlichsprachliche Sequenz 


take the orange from the fridge and close the dishwasher 


Vorgehen 


Zu Beginn müssen die Bedeutungen aller Nomen disambiguiert werden (siehe|Abschnitt 7.2); 
beispielsweise wird für orange die Bedeutung Orange(fruit) anstatt der ebenfalls möglichen 


Bedeutungen Orange(color) oder Orange(word) gewählt. Darüber hinaus werden die Bedeu- 
tungen Refrigerator (für fridge) und Dishwasher (für dishwasher) gewählt. Anschließend wird 
ein Bedeutungsgraph für jede Bedeutung erzeugt (S1, S2 und Sg in der oberen Hälfte von 
‚Abbildung 7.2). Als Nächstes werden alle Knoten aller Graphen, die das gleiche Konzept 
repräsentieren, vereinigt. Im Beispiel betrifft das die Konzepte home und home appliance 


in den Bedeutungsgraphen Sı und S3. So entsteht der Themengraph im unteren Teil der 
Abbildung 7.2] In diesem Fall besteht der Themengraph aus zwei nicht verbundenen Teilgra- 
phen (T, und T2). Zusammenhängende Themengraphen weisen darauf hin, dass Bedeutungen 


thematisch verwandt sind. Aus dem Themengraph werden anschließend die Themen-Etiketten 
extrahiert; je nach angewendeter Strategie führt dies zu unterschiedlichen Ergebnissen. Unter 
Verwendung der Strategie Höchste Konnektivität werden ausschließlich Knoten aus Tı in 
Betracht gezogen. Die grün hinterlegten Knoten weisen einen Konnektivitätswert von zwei auf, 
während die Konnektivität für alle anderen eins beträgt. Aus der Kandidatenmenge werden nun 
mithilfe des Q-Wertes (ausgerichteter PageRank) die besten Etiketten ausgewählt; im Beispiel 
sind dies home und home appliance. Wird die Strategie Maximale Abdeckung angewendet, 
ändert sich die Auswahl. Zwar wird auch hier anhand der Konnektivität und des Q-Wertes das 


Themen-Etikett home bestimmt; anschließend wird jedoch der Themengraph T2, der bisher 


nicht repräsentierten Bedeutung Orange(fruit), betrachtet. Wieder wird anhand des (2-Wertes 
das beste Etikett gewählt, hier fruit. Die Strategie Maximale Abdeckung erzeugt somit die 
beiden Etiketten home und fruit. 
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7.3.2 Evaluation des Agenten zur Modellierung und 
Etikettierung von Diskurs-Themen 


Die Bewertung des Ansatzes ist schwerlich anhand eines objektiven Goldstandards möglich. In 
den meisten Fällen ist die Einschätzung, ob ein Themen-Etikett zu einer natürlichsprachlichen 
Sequenz passt und ob diese die einzig passende ist oder nicht, subjektiv. Aus diesem Grund wurde 
zur Bewertung der generierten Etiketten eine Nutzerstudie mit sechs Probanden durchgeführt. Alle 
Probanden waren Master-Studenten unterschiedlicher Fakultäten, vier männliche und zwei weibliche 
in einer Alterspanne von 22 bis 27 Jahren. Als Testdatensatz wurden aus den ersten acht Szenarien 
des Pro/,-Korpus (siehe[Abschnitt 5.5) je zwei zufällige Transkriptionen gezogen (das heißt in 
Summe sechzehn); zusätzlich wurden sechs weitere synthetische Außerungen erstellt. Diese ähneln 
in Länge, Komplexität und Formulierung den Transkriptionen des Proy,,-Korpus. Der Grund 
für die Erstellung der zusätzlichen Äußerungen ist, dass die Szenarien des Pro/,-Korpus alle 
in einer Küchenumgebung angesiedelt sind; die synthetischen Äußerungen entsprechen inhaltlich 
andersgeartete Szenarien (Drohnensteuerung im Freien, Kommandos an einen Lego-Roboter in 
einem Parcours und Anfragen an ein intelligentes Assistenzsystem, siehe [Abschnitt 5.4.3). Dadurch 
kann überprüft werden, ob der Ansatz auch für andere Themenbereiche funktioniert. Die für die 


Nutzerstudie verwendeten Transkriptionen sind im Anhang in Abschnitt D.1|aufgefiihrt. 


Zur Erzeugung der Themen-Etiketten für die Nutzerstudie wurde das vollständige Proy/_,- 
Vorverarbeitungsfließband durchlaufen (siehe Kapitel 6). Anschließend wurde der Agent für 
Disambiguierung basierend auf Wikipedia einmal ausgeführt, um die initialen Bedeutungen für die 
Nomen zu erzeugen (siehe Abschnitt 7.2). Zuletzt wurde der hier beschriebene Agent ausgeführt 
und die generierten Themen-Etiketten je Äußerung gespeichert; zur Generierung wurden beide 


Strategien (Maximale Abdeckung und Höchste Konnektivität) verwendet. Für die ausgewählten 
Äußerungen wurden zwischen vier und zehn Themen-Etiketten erzeugt. Anschließend wurden 
(mehrstufige) Formulare zur Bewertung der Etiketten erstellt. Die Formulare bestehen aus der jewei- 
ligen Äußerung, allen extrahierten Etiketten, absteigend geordnet nach ihrer Konfidenz (N-Wert), 
und einer mehrstufigen Bewertungsauswahl je Etikette. Ein Formular ist schematisch im Anhang in 
[Abschnitt C.3]dargestellt. Im Verlauf der Auswertung konnte beobachtet werden, dass die in den 
Formularen verwendeten Bewertungsmöglichkeiten zu feingranular gewählt wurden; die Probanden 


verwendeten nur wenige der möglichen Bewertungsklassen. Aus diesem Grund werden für die 
Auswertung nur die vier folgenden Klassen verwendet: 


e passend: Diese Bewertung soll vergeben werden, wenn das Themen-Etikett ein oder mehrere 
Konzept(e) zutreffend beschreibt. 
Beispiel: Etikett home appliance zu fridge und dishwasher 


e zu allgemein: Diese Bewertung soll vergeben werden, wenn das Themen-Etikett ein oder 
mehrere Konzept(e) beschreibt, aber zu allgemein ist. 


Beispiel: Etikett domestic implements zu fridge und dishwasher 


e verwandt: Diese Bewertung soll vergeben werden, wenn das Themen-Etikett zu einem oder 
mehreren Konzept(en) verwandt ist, diese(s) aber nicht direkt beschreibt. 
Beispiel: Etikett tool zu fridge und dishwasher 
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Tabelle 7.10: Verteilung der Einschätzungen der Probanden zur Qualität der top-k Themen-Etiketten, die mithilfe der 
Strategien Maximale Abdeckung (Abd.) und Höchste Konnektivität (Kon.) erzeugt wurden. 
passend zu allgemein verwandt unpassend 

Abd. Kon. Abd. Kon. Abd. Kon. Abd. Kon. 
0,530 0,530 0,242 0,242 0,045 0,045 0,182 0,182 
0,447 0,424 0,167 0,182 0,106 0,106 0,280 0,288 
0,449 0,444 0,141 0,152 0,157 0,146 0,253 0,258 
0,432 0,420 0,144 0,140 0,155 0,167 0,269 0,273 
0,381 0,369 0,145 0,136 0,176 0,182 0,298 0,312 
alle) 0,368 0,340 0,138 0,132 0,179 0,200 0,315 0,329 


N A U Nely 


e unpassend: Diese Bewertung soll vergeben werden, wenn das Themen-Etikett für alle 
Konzepte der Äußerung unpassend ist. 
Beispiel: Etikett clothes valet zu fridge und dishwasher 


Die sechs Probanden wurden in zwei Gruppen eingeteilt. Jeder Gruppe wurden elf Formulare (zu 
elf Äußerungen) zur Bewertung vorgelegt; das bedeutet, die Etiketten wurden unabhängig von je 
drei Probanden bewertet. Dementsprechend kann die Urteilerübereinstimmung (Interannotatorüber- 
einstimmung) in Form von Fleiss Kappa bestimmt werden (siehe Abschnitt 2.4.9). Der ermittelte 
&-Wert ist 0,27; nach Landis und Koch entspricht dies einer mittelmäßigen aber ausreichenden 


Übereinstimmung |[LK77]. 


Die Verteilung der Bewertungen der Probanden ist in 'Tabelle 7.10| gezeigt. Dargestellt sind die 
relativen Häufigkeiten der Bewertungen für die k bestbewerteten (und alle) Etiketten für alle oben 


definierten Klassen und die beiden Strategien. Bewertungen aus der Klasse passend können als 


genau zutreffend gewertet werden. Das bedeutet, die Strategie Maximale Abdeckung erreicht eine 
Genauigkeit von 0,368 über alle Etiketten und 0,530 für die höchst-eingestuften. Davon abgesehen, 
sind auch als zu allgemein bewertete Etiketten in den meisten Fällen eine gute Wahl. Zählt man diese 
hinzu, steigt die Genauigkeit aller Etiketten auf 0,506 und die höchst-bewerteten auf 0,772. Auffällig 
ist, dass es nur wenige Etiketten gibt, die als verwandt aber nicht beschreibend eingeschätzt wurden 
(0,045). Da aber gerade diese Kategorie besonders subjektiv ist, kann angenommen werden, dass 
viele Probanden statt dieser Bewertung eher zu allgemein oder unpassend wählten. Hinsichtlich 
der Klasse unpassend sei darauf hingewiesen, dass für diese (anders als für die übrigen) gilt, dass 
niedrige Werte ein besseres Ergebnis darstellen. Insgesamt sind die Ergebnisse für Etiketten, die 
mithilfe der Strategie Maximale Abdeckung erzeugt wurden, besser bewertet als solche, die mit der 
Strategie Höchste Konnektivität generiert wurden. Die Beurteilung der Themen-Etiketten durch 
jeweils drei Probanden erlaubt eine Bewertung nach Mehrheitsentscheid. Hierzu werden zwei weitere 
Metriken verwendet. Die erste ist die Präzision@k, wie von Hulpus et al. eingeführt [Hul+13]: 


#Treffer mit Rang < k 


Präzision@k = 1 


(7.3) 
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passend passend oder zu allgemein 


Abbildung 7.3: Präzision@k (P), Abdeckung@k (A) und H@k (H) für Themen-Etiketten, die per Mehrheitsentscheid als 
passend bzw. passend oder zu allgemein bewertet wurden: Dargestellt sind die Ergebnisse für beide Strategien, Maximale 
Abdeckung (Abd.) und Höchste Konnektivität (Kon.). 


Die Präzision@k gibt an, wie viele Etiketten unter den ersten k Etiketten (k = [1, 5]) ein sogenannter 
Treffer sind. Ein Treffer ist eine Themen-Etikette, die durch die Probanden als passend (bzw. als 
passend oder zu allgemein) bewertet wurde. Die zweite Metrik ist eine angepasste Variante der von 
Hulpus et al. vorgeschlagenen Abdeckung@k?} 


# Äußerungen mit mind. 1 Treffer mit Rang < k 


Abdeckung@k = (7.4) 


# Äußerungen 


Die Abdeckung@k bestimmt den Anteil der Äußerungen, für die mindestens ein Etikett unter den 
ersten k Etiketten ein Treffer ist. Um bemessen zu können, an welchem Punkt der beste Kompromiss 
aus Präzision@k und Abdeckung@k erzielt werden kann, wird zusätzlich das harmonische Mittel 
(H@k), in Anlehnung an das Fı-Maß, bestimmt (siehe [Abschnitt 2.4.3): 


Hol Pigeon x Abdeckung@k (7.5) 
Präzision@k + Abdeckung @k 


Da Präzision, Abdeckung und das harmonische Mittel nur für gute Etiketten bestimmt werden sollen, 


werden hier nur Etiketten betrachtet, die als passend oder passend oder zu allgemein eingestuft 


wurden. Abbildung 7.3|zeigt Liniendiagramme für beide Varianten. Dargestellt sind Präzision@k, 
Abdeckung@k und H Qk für die beiden Strategien Maximale Abdeckung und Höchste Konnektivität. 
Wie zu erwarten, steigt die Abdeckung mit steigenden Werten für k. Gleichzeitig sinkt aber die 


Präzision. Bei der Variante, bei der Etiketten, die als passend oder zu allgemein eingestuft wurden, 
als gut betrachtet werden, sind die Werte für die Abdeckung sehr gut (zwischen 0,801 und 0,954). 


” Hulpus et al. erzeugen ein explizites Themen-Modell. Daher können sie die Abdeckung@k pro modelliertem Thema 


bestimmen. Da der hiesige Ansatz die Themen implizit modelliert, wird die Abdeckung@k pro Äußerung berechnet. 
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Selbst wenn nur passende Etiketten als gut angesehen werden, übersteigt die Abdeckung 0,909 
bei k > 4. Natürlich wären höhere Werte für die Präzision wünschenswert. Immerhin sinkt die 
Präzision für passende Etiketten weniger stark als die Ausbeute steigt. Diese Beobachtung wird 
durch das harmonische Mittel bestätigt, das bei k = 4 mit 0,586 seinen höchsten Wert erreicht 
(Strategie Maximale Abdeckung). Bei Etiketten, die als passend oder zu allgemein eingestuft wurden, 
sinkt der Wert hingegen für das harmonische Mittel stetig (max. 0,818 bei k = 1, beide Strategien). 
Insgesamt lässt sich Folgendes festhalten: Zum einen sind die Werte für die Strategie Maximale 
Abdeckung in fast allen Fällen etwas besser als bei Verwendung der Strategie Höchste Konnektivität. 
Zum anderen ist die Verwendung von bis zu vier Themen-Etiketten je Äußerung sinnvoll, wenn 
man nur Etiketten zulassen möchte, die als passend bewertet wurden (legt man das harmonische 
Mittel als Kriterium zugrunde); betrachtet man hingegen passende oder zu allgemeine Etiketten ist 
nur ein Themen-Etikett je Äußerung sinnvoll, für k > 1 sinkt die Präzision stärker, als die Ausbeute 


steigt” | 
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Die Interpretation einer natürlichsprachlichen Äußerung, wie sie nötig ist, um Programmieren 
mit natürlicher Sprache zu ermöglichen, bedarf einer tiefgehenden sprachlichen Analyse. Dazu 
genügt es nicht, nur die Bedeutung einzelner Wörter und die Themen des Diskurses zu verstehen 


(siehe [Abschnitt 7.2] und [7.3). Die Bedeutungen der einzelnen Wörter stehen zu isoliert und 


die Diskurs-Themen sind zu grobgranular, um ein tiefes Verständnis der natürlichsprachlichen 
Äußerung zu generieren. Stattdessen muss der sprachliche Kontext einer Äußerung analysiert und 
formalisiert werden. Dazu gehören in der Äußerung genannte Entitäten, Konzepte und Ereignisse 
sowie Relationen zwischen diesen. Mithilfe eines solchen Modells können Zusammenhänge und 
Abläufe nachvollzogen werden. Die Modellierung des sprachlichen Kontextes ist hilfreich für 
jedwede weitere Analyse der Äußerung. Im Kontext von Proy,, kann das Modell des sprachlichen 
Kontextes zur Unterstützung folgender Analysen verwendet werden: Korreferenz-Analyse, Korrektur 
von Wortfehlern des automatischen Spracherkenners und Erzeugung von Methodendefinitionen und 
Skripten (siehe Abschnitt 7.5|und 7.8). 


Der Aufbau eines solchen Modells erfolgt über die Umgebung einzelner sprachlichen Einheiten 


(Wörter, Phrasen, etc.), ähnlich wie bei der Disambiguierung von Wortbedeutungen (siehe |Ab- 
schnitt 7.2). Anhand der Umgebung können Zusammenhänge erkannt und auf bekanntes Wissen 
über Konzepte und ihrer Relationen zueinander zurückgeführt werden. Dieses Wissen kann aus 


Weltwissensdatenbanken oder -ontologien bezogen werden. 


In der Literatur wird das Problem der Modellierung des sprachlichen Kontextes (im Kontext der 
Programmierung mit natürlicher Sprache) unterschiedlich, häufig aber nur implizit, betrachtet. Die 
Modellierung erfolgt nur soweit für die konkrete Lösung erforderlich, eine allgemeingültige und 
übertragbare Lösung wird nicht angestrebt. Auch wird der sprachliche Kontext zumeist nicht formal 


” Der Agent ist daher so vorkonfiguriert, dass er die Strategie Maximale Abdeckung verwendet und bis zu fünf 


Themen-Etiketten ausgibt. 
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definiert oder überhaupt explizit modelliert. Ansätze, die auf rekurrenten neuronalen Netzen basieren, 


verwenden den sprachlichen Kontext schon aufgrund der verwendeten Architektur [XS14]. Da 


vorherige Eingaben immer wieder in das Netz eingespeist werden (Rekurrenz), sind Klassifikationen 
immer auch teilweise vom Kontext der aktuellen Eingabe abhängig. Ähnlich verhält es sich für 
Ansätze, die teilweise beobachtbare Markov-Entscheidungsprozesse (eng. partially-obserable markov 


decision process, POMDP) verwenden | You+10]. Diese modellieren den Kontext implizit in ihrem 


Glaubenssystem (engl. belief system). Implizite Kontext-Modellierung wird auch in wissensbasierten 
Systemen verwendet. Bei Aktiven Ontologien (engl. Active Ontology, AO) beispielsweise verbleiben 
zuvor extrahierte Informationen im System bis sie von einer gleichartigen verdrängt werden |GCBO06} 


GBC06} GBC07]. Auf diese Weise können Informationen aus einer vorangegangenen Äußerung 


verwendet werden, um die aktuelle zu interpretieren. Diese impliziten Modellierung, wie von den 
beschriebenen Ansätzen verwendet, ist beschränkt auf die jeweilige Anwendung und ist weder 
übertragbar noch direkt nutzbar. Auch der Einfluss auf die Ergebnisse ist schwer zu bemessen. 
Daher modellieren einige Ansätze den Kontext explizit. Misra et al. nutzen beispielsweise explizit 
modellierten situativen Kontext (der Systemumgebung), um die (inferierte) geteilte Information 
zwischen System und Nutzer zu validieren [Mis+15]. Für denselben Zweck verwenden Bordes et 
al. im sprachlichen Kontext erkannte Konzepte [Bor+10]. Fleischmann und Roy hingegen nutzen 


den sprachlichen Kontext von Aktionen, um ihren Ansatz zur Abbildung von natürlichsprachlichen 
Äußerungen auf Systemaktionen zu verbessern [FROS]. Den aufgeführten Ansätze ist allen gemein, 
dass sie entweder zum Ziel haben, die Umgebung zu modellieren oder eine Umgebungsmodellierung 
nutzen, um neues Wissen zu inferieren. Für Pro, soll hingegen der sprachliche Kontext an sich 
modelliert werden. Das Modell bezieht zwar ebenso Umgebungs- und Weltwissen ein, modelliert 
werden aber in der natürlichsprachlichen Äußerung genannte Entitäten, Konzepte und Ereignisse 
sowie Relationen zwischen diesen. 


7.4.1 Ein Model des sprachlichen Kontextes 


Zunächst gilt es festzulegen, was genau unter sprachlichem Kontext zu verstehen ist. In der 
Literatur existieren unterschiedliche Definitionen für den Begriff Kontext im Bezug auf natürliche 
Sprache [Dur92} |Sta99} |Fet04]. Allen Definitionen ist jedoch gemein, dass Kontext eine Art 
Information beschreibt, die genutzt werden kann, um die Bedeutung eines (anderen) sprachlichen 


Artefakts zu erfassen. Diese Artefakte sind die Bestandteile des sprachlichen Diskurses. Der Kontext 
der Artefakte umfasst Informationen über die Sprachsituation (Umgebung) der Äußerung, wie den 
Ort, die Zeit, die Beziehung der Gesprächspartner und Annahmen über geteiltes Wissen (Weltwissen) 
der Gesprächspartner. Zusätzlich bilden vorangegangene Äußerungen eine sprachliche Umgebung 
für die jeweilige Äußerung. 


Da für Prof% einzig natürlichsprachliche Äußerungen als Eingabe verwendet werden sollen, muss 
zunächst analysiert werden, welche Kontextinformationen überhaupt erzeugt werden können. Neben 
der Äußerung als solcher stehen auch die vorangegangenen Äußerungen im Diskurs zur Verfügung. 
Einzelne Äußerungen enthalten Informationen über Aktionen (oder Ereignisse), die von Akteuren 
ausgeführt werden und Objekte behandeln. Andere Ausdrücke enthalten zeitliche oder örtliche 


Einordnungen und Bedingungen. Entitäten wie Subjekte, Objekte und Aktionen sind Instanzen 
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bestimmter Konzepte, die inferiert werden müssen. In natürlichsprachlichen Äußerungen gehören 
viele Entitäten zum selben Konzept. Gleichermaßen sind viele Konzepte Spezialisierungen von 
Oberkonzepten. Folglich bilden die in einer sprachlichen Äußerung enthaltenen Konzepte eine 
(Konzept-)Hierarchie. 


In diesem Beispiel soll die grundlegende Idee von Konzepten und Oberkonzepten in einem 
sprachlichen Kontext demonstriert werden. 


Natiirlichsprachliche Sequenz 
the fridge and dishwasher are running 
Enthaltene Konzepte und Oberkonzepte 


Der Begriff fridge ist eine Manifestation des Konzeptes refrigerator; gleiches gilt fiir dis- 
washer und dishwasher. Die Phrase are running bezieht sich auf das Konzept run_operate 
(und nicht etwas auf run_move, welches auch möglich, aber im Kontext nicht sinnvoll wäre). 


Letztlich findet sich zu den Konzepten refrigerator und dishwasher das gemeinsame 


Oberkonzept white_goods. 


Ausgehend von den diskutierten Beobachtungen, wird im Folgenden ein dreischichtiges Modell 
für sprachlichen Kontext definiert. In der ersten Schicht (Individuelle Information) werden die 
individuellen Informationen je sprachlichem Artefakt modelliert. Die zweite Schicht (Konzeptionelle 
Information) beschreibt die Konzepte, die von den jeweiligen Entitäten der ersten Schicht geformt 
werden. Zuletzt modelliert die dritte Schicht (Hierarchische Information) die Generalisierungen der 
Konzepte (Oberkonzepte). Die Schichten bilden ein hierarchisches Modell zunehmender Abstraktion 


von der natürlichsprachlichen Äußerung. |Tabelle 7.11] gibt einen Überblick über die Schichten und 


die jeweils enthalten Typen von Kontextinformation. 


Die erste Schicht umfasst alle Informationen, die direkt aus dem geäußerten Handlungsverlauf 
entnommen werden können. Das bedeutet, in der ersten Schicht werden Aktionen, Entitäten, 
etc. modelliert, die in der natürlichsprachlichen Äußerung auftreten. Alle auftretenden Nomen 
sind entweder Subjekte oder Objekte eines Prädikates. Sowohl Subjekte als auch Objekte bilden 
Entitäten im Kontextmodell. Davon ausgehend werden mögliche Beziehungen zwischen den Entitäten 
betrachtet. Beschreibt ein Prädikat eine Handlung, wird diese Information als Aktion im Modell 
hinterlegt. Eine Aktion kann auf Entitäten Bezug nehmen, wie in der Äußerung „robot go to 
the table“: go(who: robot, where: table). So kann über den Diskurs hinweg modelliert 
werden, welche Entitäten von Handlungen beeinflusst wurden. Eine Ausprägung einer solchen 
Einflussnahme ist die Änderung des Zustands einer Entität durch eine Handlung. Diese Art von 
Kontextinformation wird als Zustandsübergang im Modell hinterlegt. Beispielsweise erzeugt die 
Äußerung „open the fridge“ einen Zustandsübergang der Entität refrigerator in den Zustand 
opened. Zustandsübergänge liefern Informationen darüber, ob ein Handlungsablauf statthaft ist; es 
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Tabelle 7.11: Kontext-Schichten und -Arten. 


Schicht Art Beschreibung 
Entität Dinge in der realen Welt (Systemumgebung) 
Spatial Deixis Räumliche Relationen zwischen Entitäten 
Individuell . on . . 
Aktion Ereignisse beschrieben im sprachl. Kontext 
Zustandsübergang Zustandswechsel, induziert durch Aktionen 
. Konzept Abstraktion einer Entität oder Aktion 
Konzeptionell . i j f 
Zustand Zustände, in denen eine Entität sein kann 
f 4 Uberkonzept Oberbegriff zu einem Konzept (Hyperonym) 
Hierarchisch 


Teil-Ganzes-Beziehung Entität ist ein Teil einer anderen (Meronym) 


ist beispielsweise nur sinnvoll etwas zu öffnen, was zuvor geschlossen war. Da Prog% ausschließlich 
die natürlichsprachlichen Äußerungen zur Verfügung stehen, kann nur aus Zustandsübergängen auf 
den Ausgangszustand von Entitäten geschlossen werden. Eine weitere häufig verwendete Beziehung 
beschreibt örtliche Einordnungen, wie cup : is_located_on : table in Äußerungen wie „the 
cup on the table“. Diese Art Kontextinformation wird als Spatial Deixis bezeichnet. 


Die zweite Schicht enthält Abstraktionen folgender Modell-Elemente der ersten Schicht: Entitäten, 
Aktionen und Zustandsübergänge. Menschen formen zum Verständnis ihres Gegenübers Konzept 
aus Begriffen des Diskurses. Hierzu nutzen sie erlerntes Wissen über die Welt, Dinge die existieren 
(können) und Handlungen, die ausgeführt werden können. Dieses Wissen umfasst unter anderem un- 
terschiedliche Bedeutungen von Begrifflichkeiten, Synonyme oder Beziehungen zwischen Begriffen. 
Beispielsweise wissen Menschen (für gewöhnlich), dass die Begriffe fridge und refrigerator das 
gleiche Konzept beschreiben. Dementsprechend werden Konzepte als weitere Kontextart definiert. 
Konzepte können als Abstraktion sowohl für Entitäten als auch für Aktionen gebildet werden. 
Natürlich sollen Entitäten und Aktionen bei wiederholter Nennung im Diskurs immer auf dasselbe 
Konzept abgebildet werden. Aus einer Zustandsänderung, wie zuvor beschrieben, kann die Existenz 
bestimmter Zustände eines Konzeptes gefolgert werden. Während eine Zustandsänderung immer eine 
konkrete Entität betrifft, gelten mögliche Zustände für alle Entitäten und damit für das zugehörige 
Konzept. Aus diesem Grund werden Zustände der zweiten Schicht zugeordnet. Außerdem kann 
auf konzeptioneller Ebene ein Zustand zu mehreren Konzepten gehören; beispielsweise kann der 


Zustand opened sowohl zum Konzept refrigerator als auch zu dishwasher gehören. 


Die dritte Schicht beschreibt Oberkonzept- und Teil-Ganzes-Beziehungen zwischen Konzepten. 
Menschen formen nicht nur wie zuvor beschrieben Konzepte aus Begrifflichkeiten, sie abstrahieren 
auch und stellen Verbindungen zwischen Konzepten her. Dies geschieht auf vielfältige Weise, von 
denen zwei im hier verwendeten Kontextmodell abgebildet werden. Zum einen bilden Menschen 
übergeordnete Konzepte zu den zuvor bekannten Konzepten. So können hierarchische Beziehungen 
zwischen Konzepten hergestellt werden. Diese Kontextart wird hier als Oberkonzept bezeichnet; 
beispielsweise haben die Konzepte refrigerator und dishwasher das gemeinsame Oberkonzept 
white_goods. Zum anderen können Menschen auch erkennen, in welchen Fällen ein Konzept ein 
Teil eines anderes ist. Ein solcher Zusammenhang wird als Teil-Ganzes-Beziehung bezeichnet; 
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Hierarchisch 


home _appliance 


white_goods kitchen_appliance 


| refrigerator | dishwasher oven microwave_oven 


1 
Th 
1 
1 


white fridge two dishwashers 


Abbildung 7.4: Entitäten und Konzepte eines konkreten Kontextmodells: Dargestellt sind beispielhafte Zusammenhänge 
zwischen Entitäten und zugehörigen Konzepten und Oberkonzepten über die verschiedenen Schichten des Kontextmodells. 


beispielsweise kann anhand der Äußerung „go to the fridge and open its door“ gefolgert werden, dass 
das Konzept refrigerator ein Teil-Konzept refrigerator.door besitzt. Abbildung 7.4|zeigt beispielhaft 
für die Entitäten white fridge, two diswashers, small oven und microwave die inferierten Konzepte 


und Oberkonzepte. 


7.4.2 Implementierung des Agenten zur Modellierung des 
sprachlichen Kontextes 


Um die beschriebene Modellierung des sprachlichen Kontextes für natürlichsprachliche Äußerungen 
zu generieren, wurde ein Pro/,’,-Agent implementiert [WHTI7a} WHT17b]. Der Agent liest 
zunächst den aktuellen Proy/,,-Graph aus und betrachtet alle darin enthaltenen Knoten vom Typ 


Token, welche die ursprüngliche natürlichsprachliche Äußerung darstellen. Aus den Token liest der 
Agent die Informationen über die Wortart, das Lemma, die Chunk-Zugehörigkeit und die semantische 
Rolle sowie gegebenenfalls die Markierung als Eigenname aus. Damit sind die Ergebnisse des 
Agenten direkt abhängig von den drei entsprechenden Vorverarbeitungsstufen (siehe [Abschnitt 6.2] 
6.3]und [6.4). Zusätzlich wird — sofern vorhanden — die Bedeutungsmarkierung extrahiert, die durch 


den Babelfy-Agenten zur Disambiguierung von Wortbedeutungen erzeugt wurden. 
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Das Kontextmodell wird anschließend iterativ von unten nach oben aufgebaut. Zunächst werden 
die Modell-Elemente der ersten Schicht (Individuelle Information) erzeugt. Mithilfe der Chunk- 
Zugehörigkeit werden zunächst die Entitäten bestimmt, indem alle Nominalphrasen (Etikett NP) 
extrahiert werden. Diese werden heuristische unter Zuhilfenahme von Wortartmarkierungen und 
Chunks um Informationen bezüglich des Numerus, adjektivische Modifikatoren sowie zugehöriger 
Quantoren und Artikeln ergänzt. Anschließend werden die örtlichen Beziehungen (Spatial Deixis) 
modelliert. Hierzu wird eine Schlüsselwortsuche auf natürlichsprachlichen Ausdrücken zwischen 
zwei Entitäten durchgeführt. Dieser Ansatz ist statthaft, da im Englischen örtliche Beziehungen 
normalerweise mithilfe von Präpositionalphrasen (zwischen Nominalphrasen) ausgedrückt wer- 


den |Cla73]. Zuletzt werden die Aktionen modelliert. Um Aktionen in den Token zu erkennen, 


wird eine regelbasierte Analyse auf die semantischen Rollen angewandt. Da wie in/Abschnitt 6.4 


beschrieben nicht nur die reinen semantischen Rollen erzeugt werden, sondern zusätzlich eine 
Verknüpfung zu PropBank und VerbNet stattfindet, können die Argumente der Aktionen konkreten 
Entitäten zugeordnet werden. Zustandsübergänge werden erst gemeinsam mit den Modell-Elementen 
der zweiten Schicht modelliert, da hierfür die erkannten Konzepte notwendig sind. 


Zur Erzeugung der Modell-Elemente der zweiten Schicht (Konzeptionelle Information) werden 
zunächst Konzepte modelliert. Hierzu wird versucht, alle Entitäten auf Individuen der eingebundenen 
Proy,,-Domänenontologie abzubilden(siehe [Abschnitt 5.4). Für die Abbildung wird die Jaro- 
Winkler-Ähnlichkeit mit einem Schwellenwert von 0,92 verwendet”? (siehe Abschnitt 2.3. 13.2). 
Zusätzlich werden Synonyme aus WordNet verwendet, um auch unscharfe Abbildungen zu er- 


möglichen. Steht die Wortbedeutung zur Verfügung, werden statt aller Synonyme nur die zur 


Wortbedeutung gehörenden verwendet”> Kann auf diese Weise keine Abbildung ermittelt werden, 
wird mithilfe von WordNet ein Konzept synthetisiert. Hierzu wird zunächst für die vollständige 
Phrase, die die Entität repräsentiert, eine Entsprechung in WordNet gesucht. Falls dies erfolglos 
bleibt, wird die Suche mit Sub-Phrasen abnehmender Länge wiederholt, wobei der Kopf der 
Phrase immer enthalten sein muss. Für die Phrase „the small white fridge“ werden beispielswei- 
se nacheinander die folgenden Anfrage-Zeichenketten erzeugt: small white fridge, small fridge, 
white fridge und fridge?" | Kann fiir keinen Teil der Phrase ein WordNet-Eintrag bestimmt werden, 
wird kein Konzept erzeugt. Dasselbe zweischrittige Verfahren wird auch fiir die Erzeugung von 


Konzepten für Aktionen angewandt. Für alle Konzepte (egal ob direkt oder mithilfe von WordNet 
abgebildet), werden zusätzlich Synonyme aus WordNet hinterlegt. Anschließend werden für alle 
Konzepte die möglichen Zustände bestimmt; diese sind in der Pro, -Ontologie hinterlegt. Für 
jeden extrahierten Zustand wird ein Modell-Element erzeugt und mit den jeweiligen Konzepten 
verbunden. Als Nächstes werden mögliche Zustandsübergänge untersucht. Hierzu wird für jedes 
Aktionskonzept in der Pro, ,-Ontologie die Information abgefragt, ob dieses Konzept zu einem 
Zustandswechsel führen kann und welche Zustände potenziell involviert sind. Anschließend wird 


Für die Abbildung werden nur die Nomen der Nominalphrase, die die Entität beschreibt, verwendet. 

Der Schwellenwert wurde empirisch anhand von Beispielen aus den Szenarien eins bis fünf des Pro ,-Korpus 
ermittelt. 

Da die Bedeutungsmarkierungen in Form von WordNet-Synsets vorliegen, werden die passenden Synonyme direkt 
mitgeliefert. 

Stoppwörter wie Artikel werden grundsätzlich von der Suche ausgeschlossen. 
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versucht, diese Information auf die Aktionsinstanzen und die in Verbindung stehenden Entitäten 
abzubilden. Beispielsweise enthält die Ontologie die Information, dass die Aktion open einen 
Zustandswechsel von closed zu opened hervorruft und dass refrigerator die Zustände opened 
und closed besitzt. Aus Äußerungen wie „open the fridge“ kann dann gefolgert werden, dass 
die Entität fridge (Konzept refrigerator) ihren Zustand von closed zu opened ändert. Eben diese 
Informationen werden auch im Modell hinterlegt. Für jede zustandsverändernde Aktion wird eine 
Verbindung zum entsprechenden Zustand hergestellt. Ebenso wird die entsprechende Entität mit 
dem Zustand verbunden. Alle folgenden Entitäten, die demselben Konzept entsprechen, werden 
ebenfalls mit dem Zustand verbunden, es sei denn, es tritt ein erneuter Zustandsübergang ein. 


Ausgehend von den Konzepten können nun die Modell-Elemente der dritten Schicht (Hierarchische 
Information) erzeugt werden. Zunächst wird die Konzept-Hierarchie mithilfe von WordNet aufgebaut. 
Hierzu werden alle Konzepte paarweise betrachtet. Augenscheinlich ist das gemeinsame Oberkonzept 
zweier Konzepte, welches in der Hyperonym-Hierarchie von WordNet am weitesten unten steht, (engl. 


least common subsumer, LCS) ein guter Kandidat für ein Oberkonzept im Kontextmodell [WP94]. 


Allerdings würden mit diesem naiven Vorgehen viele unpräzise (bzw. zu allgemeine) Oberkonzepte 
wie artifact oder entity erzeugt werden. Aus diesem Grund verwendet der Ansatz das Ähnlichkeitsmaß 


von Wu und Palmer [WP94] mit einem Schwellenwert von 0,7 und einem zusätzlichen Tiefen- 


Filter (für die WordNet-Konzepthierarchie), um zu allgemeine Konzept auszuschließen. Falls 
eines der beiden Konzepte ein Oberkonzept des anderen in WordNet ist, wird diese Beziehung 
auch in das Kontextmodell übernommen. Ist ein Oberkonzept bereits vorhanden, werden die 
jeweiligen Konzepte mit diesem verbunden; es findet also keine Duplizierung von Oberkonzepten 
statt. Das Vorgehen zur Erzeugung von Oberkonzepten wird iterativ fortgesetzt. Das bedeutet, für 
erzeugte Oberkonzepte wird erneut versucht, ein neues gemeinsames Oberkonzept zu finden. Dies 
wird solange fortgesetzt bis keine Oberkonzepte mehr erzeugt werden können (gemäß der oben 
beschriebenen Einschränkungen). Zuletzt werden Teil-Ganzes-Beziehungen generiert. Einige davon 
sind in den Proyf,,,-Domänenontologien hinterlegt und können direkt übernommen werden (siehe 


Abschnitt 5.4). Darüber hinaus werden Meronym-Relationen aus WordNet verwendet, um weitere 


Teil-Ganzes-Beziehungen zwischen bereits generierten (Ober-)Konzepten zu erzeugen. Bei den in 
der Ontologie hinterlegten Konzepten werden hingegen alle zugehörigen Teil- und Ganzes-Konzepte 
hinterlegt, unabhängig davon, ob sie in der Äußerung genannt werden oder nicht. Der Agent zur 
Modellierung des sprachlichen Kontextes nutzt zur Erzeugung der Modell-Elemente die Eigenschaft 
der PARSE-Rahmenarchitektur, dass Agenten mehrfach ausgeführt werden können (siehe 
schnitt 4.2.5). Die zuvor beschriebenen iterativen Schritte entsprechen Aufrufen des Agenten. Das 
bedeutet, wird der Agent zum ersten Mal aufgerufen, werden ausschließlich Modell-Elemente der 


ersten Schicht erzeugt, beim zweiten Aufruf die der zweiten und beim dritten Aufruf die der dritten. 
Bei jedem weiteren Aufruf werden weitere Elemente der dritten Schicht erzeugt, solange dies nach 
dem zuvor beschriebenen Verfahren möglich ist. 


Das auf diese Weise erzeugte Kontextmodell besteht aus drei Schichten mit fünf Kontextarten, 
die als Knoten im Proy/,-Graph hinterlegt werden (Entität, Aktion, Konzept, Oberkonzept und 
Zustand), und drei Arten, die als Kanten modelliert werden (Spatial Deixis, Zustandsübergang und 


Teil-Ganzes-Beziehung). 


199 


7 Agenten für Sprachverständnis 


In diesem Beispiel soll die Erzeugung des Kontextmodells anhand einer synthetischen, natür- 
lichsprachlichen Äußerung demonstriert werden. Das Beispiel nimmt Bezug auf|Abbildung 7.5 
welche das erzeugt Kontextmodell visualisiert. 


Natürlichsprachliche Sequenz 
Robo turn on the small oven between the oven and the fridge 
Vorgehen 


Beim ersten Aufruf des Agenten werden zunächst alle Nominal- und Verbalphrasen sowie 
zugehörige Adjektive, Adverbien etc. extrahiert. Aus diesen Informationen werden die Entitäten 
Robo, small oven, oven und fridge sowie die Aktion turn on erzeugt. Anschließend werden 
heuristisch die örtlichen Beziehungen modelliert, hier die Information, dass sich die Entität 
small oven zwischen den Entitäten oven und fridge befindet. Wird der Agent von der 
Rahmenarchitektur erneut aufgerufen, werden Konzepte der zweiten Schicht gebildet. Im 


Beispiel sind alle Konzepte Bestandteil der Pro, -Domänenontologie. Das Konzept oven 


subsumiert die Entitäten small oven und oven. Zusätzlich wird der Zustandsübergang der 
Entität small oven in den Zustand on geschlossen; für das Konzept oven werden außerdem die 
beiden möglichen Zustände on und off aus der Ontologie extrahiert. Beim nächsten Aufruf 
generiert der Agent mithilfe von WordNer das gemeinsame Oberkonzept home_appliance für 
die Konzepte oven und refrigerator. Außerdem wird dem Modell das Teil-Konzept oven.door 
hinzugefügt. 


7.4.3 Evaluation des Agenten zur Modellierung des 
sprachlichen Kontextes 


Zur Evaluation des Agenten wurden die Transkriptionen zu den Szenarien sechs und sieben der 
stationären Datensammlung des Pro/,,-Korpus verwendet (siehe Abschnitt 5.5.2). Der Datensatz 
enthält insgesamt 21 Äußerungen mit insgesamt 264 Instruktionen. Weitere Informationen zum 


verwendeten Datensatz können'Tabelle 7.12/entnommen werden. Für alle Transkriptionen wurden 


Musterlösungen erstellt; das bedeutet, die erwarteten Modell-Elemente wurden phrasenweise 
händisch annotiert. Konzepte und Oberkonzepte werden an alle zugehörigen Entitäten bzw. Aktionen 
annotiert. Die Kontextarten, die als Kante im Graph modelliert werden, werden an der Zielphrase 
annotiert (inklusive eines Verweises auf die Quellphrase)”®| Hinsichtlich der Zustände wird in der 
Evaluation zwischen erzeugten Zustands-Elementen und Verbindungen zu diesen unterschieden. 
Die Modell-Elemente werden erzeugt, wenn der Zustand (bzw. komplementäre Zustand) das 


® Eine Ausnahme bilden die Teil-Ganzes-Beziehungen. Wird in der Äußerung nur das Ganze genannt, wird die 


Annotation an dieser Stelle hinzugefügt, da keine Zielphrase für die Beziehung existiert. 
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Zustand 
off 


Zustand 
on 


Oberkonzept 
home _appliance 


Abstraktion 


möglicher 


übergehend in 
Zustand 


in Zustand 


Konzept Konzept Konzept Be Konzept Konzept 
el . 
robot turn_on oven oven.door refrigerator 


Abstraktion Abstraktion Abstraktion Abstraktion 


robo turn on small oven oven zwischen—> fridge 


Robo turn on the small oven between the oven and the fridge 


Abbildung 7.5: Modellierung des sprachlichen Kontextes zu einer synthetischen Beispiel-Äußerung. 


erste Mal in der Äußerung genannt wird. Eine Verknüpfung zu einer Entität findet aber bei jeder 
Nennung der Entität statt, solange die Entität in diesem Zustand verbleibt. Durch die zusätzliche 
Vermessung der Zustandsverknüpfungen kann detaillierter bestimmt werden, für welche Entitäten 
die richtigen Zustände bzw. Zustandsübergänge gefolgert werden können. Eine Übersicht über 
die erstellten Modell-Elemente des Gold-Standards wird ebenfalls in Tabelle 7.12 gegeben] 
Um das vom Agenten erzeugt Kontextmodell zur Evaluation zu erhalten, wurde zunächst das 


vollständige Prof, -Vorverarbeitungsfließband ausgeführt. Anschließend wurde der Babelfy-Agent 
zur Disambiguierung von Wortbedeutungen ausgeführt. Zuletzt wurde der Agent zur Modellierung 
des sprachlichen Kontextes solange wiederholt ausgeführt bis keine Veränderung mehr im Pro) - 
Graphen eintritt. Das erzeugte Modell wurde anschließend mit dem Gold-Standard verglichen. 


Zur Bewertung des generierten Modells wurden pro Kontextart Präzision, Ausbeute und Fı-Maß 


bestimmt. Tabelle 7.13|zeigt eine Übersicht über die Evaluationsergebnisse. Die Werte für das 


F,-MaB reichen je nach Kontextart von 0,723 bis 0,977, wobei ein Großteil einen Wert größer 
0,9 erzielt. Die Ausbeute für die Kontextarten Spatial Deixis, Zustandsübergang und Aktion fällt 
deutlich niedriger aus als für die restlichen. Für letztere können viele Probleme auf Fehler in 
der Vorverarbeitungsphase zurückgeführt werden; insbesondere fehlerhafte Wortartetiketten und 
semantische Rollen führen dazu, dass Aktionen nicht korrekt erkannt werden. Der verwendete 
semantische Rollenerkenner SENNA erreicht einen Wert von 0,755 für das F}-Maß für die 
Vergleichsaufgabe der SIGNLL Conference on Computational Natural Language Learning 2005 
(CoNLL-2005 shared task) |Col+11]. Dementsprechend ist das hier erzielte Fı-Maß von 0,804 
vielversprechend. Für die beiden erstgenannten Kontextarten kann die niedrige Ausbeute damit 


begründet werden, dass die Erzeugung dieser Modell-Elemente heuristikbasiert erfolgt und die 
Heuristiken offensichtlich nicht alle auftretenden Fälle abdecken. Zusätzlich findet durch die 
inkrementelle Erzeugung des Modells eine Fehlerfortpflanzung statt. Fehler, die auf niedrigen 


°° Die große Menge der händisch zu annotierenden Modell-Elemente ist der Grund für die vergleichsweise geringe 


Anzahl an Transkriptionen als Evaluationsdatensatz. 
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Tabelle 7.12: Der für die Evaluation der Modellierung des sprachlichen Kontextes verwendete Datensatz. 


Szenario 6 Szenario 7 Gesamt 


Äußerungen 10 11 21 
enthaltene Worter 734 811 1545 
enthaltene Phrasen 467 543 1010 
enthaltene Instruktionen 121 143 264 

Entitäten 199 233 432 

Spatial Deixes 41 43 84 

Aktionen 120 154 274 

Zustandsübergänge 33 48 81 

Konzepte 274 320 594 

Zustände (Verbindungen) 8 (306) 10 (338) 18 (644) 

Oberkonzepte 88 56 144 

Teil-Ganzes-Beziehungen 35 43 78 


Tabelle 7.13: Ergebnisse der Evaluation der Modellierung des sprachlichen Kontextes nach Kontextarten. 


Kontextart Präzision Ausbeute Fj 

Entität 0,972 0,975 0,973 
Spatial Deixis 0,945 0,793 0,862 
Aktion 0,852 0,762 0,804 
Zustandsübergang 0,854 0,627 0,723 
Konzept 0,986 0,974 0,981 
Zustand 1,000 0,955 0,977 
Oberkonzept 0,680 0,932 0,786 


Teil-Ganzes-Beziehung 0,897 0,959 0,927 


Abstraktionsebenen (oder bereits in der Vorverarbeitung) auftreten, führen zu weiteren Fehlern 
in den höheren Schichten. Wird beispielsweise ein Verb nicht als solches erkannt, wird keine 
Aktion erzeugt. In der Folge kann auch kein Zustandsübergang und somit auch kein Zustand 
inferiert werden. Der Fehler pflanzt sich sogar noch weiter fort. Da die Zustandsverbindungen 
einzeln bewertet werden, bedingt ein fehlender Zustandsübergang gegebenenfalls eine Vielzahl von 
fehlenden Zustandsverbindungen. Hinsichtlich der örtlichen Beziehungen kann ein Großteil der nicht 
erzeugten Modell-Elemente auf mehrdeutige Sequenzen in den Äußerungen zurückgeführt werden. 
Werden beispielsweise verschachtelte Präpositionalphrasen wie in „put the meal from the fridge on 
the table“ verwendet, ist eine eindeutige Interpretation nicht möglich. Der Agent entscheidet sich in 
diesen Fällen entweder für eine der möglichen Interpretationen (gegebenenfalls für eine falsche) 
oder keine. Die Generierung von Konzepten und die Verbindung von Konzepten und Zuständen 
funktioniert zuverlässig; falsch positive und falsch negative Ergebnisse lassen sich ausnahmslos auf 
Fehler in der Vorverarbeitung zurückführen. Auch die Erzeugung der Teil-Ganzes-Beziehungen 
erzielt ähnlich gute Ergebnisse. Hier können die wenigen Fehleinschätzungen auf Fehler bei der 
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Bestimmung der Wortbedeutung zurückgeführt werden. Wird beispielsweise dem Wort plate die 
Bedeutung a sheet of metal or wood or glass or plastic zugewiesen, obwohl im Kontext die Bedeutung 
dish on which food is served or from which food is eaten gemeint war, wird plate fälschlicherweise 
zu einem Teil-Konzept von table. Die Generierung von Oberkonzepten erzielt gute Werte für die 
Ausbeute, die Präzision weist hingegen die mit Abstand schlechtesten Werte auf. Wieder können 
falsche Zuordnungen auf Fehler bei der Disambiguierung zurückgeführt werden. Außerdem ist 
die WordNet-Hyperonym-Hierarchie weder vollständig noch in allen Fällen eindeutig, was zu 
weiteren Fehlern führt. Zusätzlich wirkt sich die Fehlerfortpflanzung bei der iterativen Erzeugung 
von Oberkonzepten deutlich stärker aus als bei anderen Kontextarten. Grundsätzlich ist eine höhere 
Ausbeute zulasten der Präzision bei der Erzeugung von Oberkonzepten aber gewünscht. Fehlerhafte 
Oberkonzepte können von anderen Analysen ignoriert werden (die vollständige Konzept-Hierarchie 
ist ohnehin in den seltensten Fällen nützlich); werden Informationen hingegen nie erzeugt, können 
sie auch nie genutzt werden. 


Zusammenfassend lässt sich festhalten, dass der Ansatz für die Kontextarten Entität, Spatial Deixis, 
Konzept, Zustand und Teil-Ganzes-Beziehung sehr gute Ergebnisse erzielt. Die Kontextarten Aktion 
und Zustandsübergang würden hingegen von einer verbesserten Erkennung semantischer Rollen 
profitieren. Oberkonzepte können mit einer hohen Ausbeute, aber niedriger Präzision erzeugt 
werden; die Generierung hängt dabei stark von der Qualität der WordNet-Hyperonym-Hierarchie 
für die gegebenen Konzepte ab. 


7.5 Korreferenzanalyse 


Die Verwendung von sprachlichen Referenzen ist ein wesentlicher Unterschied zwischen natürlichen 
und formalen Sprachen. Durch Referenzen werden Sprachen ökonomischer und in vielen Fällen 
stilistisch schöner und damit für den Hörer (oder Leser) angenehmer. Allerdings setzen sprachliche 
Referenzen voraus, dass die Diskursteilnehmer wissen, wie diese aufzulösen sind. Je nach Art 
der Referenz setzt dieses Vermögen eine andere Art geteilten (Welt-)Wissens voraus. Diese 
Voraussetzung führt dazu, dass Referenzen grundsätzlich zu Mehrdeutigkeiten führen können. Viele 
der Mehrdeutigkeiten, die durch die Verwendung von natürlichsprachlichen Referenzen entstehen, 
können über Regelwissen (z. B. mithilfe von Grammatikregeln) aufgelöst werden; dieses Regelwissen 
kann vergleichsweise einfach auch Rechnersystem zur Verfügung gestellt werden. Andere Referenzen 
erschließen sich hingegen nur aus dem (sprachlichen) Kontext des Gesagten. Die Computerlinguistik 
beschäftigt sich mit der Auflösung Referenzen in natürlicher Sprache, insbesondere mit explizite 
Korreferenzen zwischen Nominalphrasen. Zwei oder mehr Phrasen, die sich auf dieselbe Entität 
beziehen, bezeichnet man als korreferent. Eine eingehende Diskussion dieser Problematik befindet 


sich in|Abschnitt 2.3.4.7| Die Analyse von Korreferenzen ist die Grundlage vieler weiterführender 


Sprachanalysen. Sie ist beispielsweise von Bedeutung, um verstehen zu können, wie viele und 
welche Entitäten im Diskurs genannt werden und an welchen Stellen sie referenziert werden. Für 
die Programmierung mit natürlicher Sprache wird dieses Wissen unter anderem dafür benötigt, 
die natürlichsprachlichen Ausdrücke auf die richtigen Objekte (beispielsweise API-Klassen oder 
Objekte und Realwelt-Objekte) abzubilden. 
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7.5.1 Korreferenzanalyse von Nominalphrasen 


Für ein Vorgehen zur Korreferenzanalyse von Nominalphrasen muss zunächst geklärt werden, welche 


Arten von Korreferenzen analysiert werden sollen. In [Abschnitt 2.3.4.7|wurde bereits erläutert, 


dass man bei Korreferenzen zwischen Anaphern und Kataphern unterscheidet. Anaphern stellen 
einen Rückverweis dar; das bedeutet, der referenzierende Ausdruck folgt im Diskurs nach der 
referenzierten Entität (Referent), wie in „go to the door and open it“. Im Gegensatz dazu stellen 
Kataphern einen vorwärts gerichteten Bezug her, wie in „he was tired, so Tom went to bed“. Aus 
folgenden Gründen beschränken sich die meisten Ansätze zur Korreferenzanalyse auf die Analyse 
von Anaphern: Zum einen treten Anaphern in den meisten natürlichen Sprachen deutlich häufiger 
auf als Kataphern] Zum anderen entstehen viele zusätzliche potenzielle Mehrdeutigkeiten, wenn 
für jeden referenzierenden Ausdruck angenommen würde, dass dieser eine Anapher oder eine 
Katapher darstellen kann. Analysen werden dadurch komplexer und fehleranfälliger. 


Auch der für Prof, entwickelte Agent beschränkt sich daher auf Anaphern. Bei der Form des 
referenzierenden Ausdrucks gibt es in natürlicher Sprache viele Varianten. Die einfachste stellt die 
Verwendung von Pronomen dar, wie in den zuvor gegebenen Beispielen. Da diese Form zudem die 
am häufigsten verwendete darstellt, fokussieren sich die meisten Ansätze darauf. Im hier vorgestellten 
Ansatz soll jedoch zusätzlich eine weitere Form analysiert werden, die sogenannte Identität. Als 
Identität bezeichnet man Ausdrücke, die im Diskurs sowohl referenzierend wirken als auch als 
Referent verwendet werden können. Das bedeutet, Identitäten sind alle expliziten namentlichen 
Nennung derselben Entität. Beispielsweise könnte der frühere Präsident der Vereinigten Staaten von 
Amerika, George W. Bush im Diskurs unter seinem Namen oder unter der Bezeichnung the former 
president of the US genannt werden; wird hingegen mithilfe des Personalpronomens he Bezug 
genommen, handelt es sich um eine pronominale Anapher (oder Katapher). Viele Identitäten können 


nur anhand des Kontextes und mit Weltwissen als solche identifiziert werden (siehe/Abschnitt 2.3.15). 


Der hier vorgestellte Agent soll daher Identitäten mit hoher Präzision erkennen, gegebenenfalls 
zulasten der Ausbeute; eine vollständige Referenzauflösung für Identitäten wird nicht angestrebt. 


In der Literatur werden häufig nur einfach Identitäten, das heißt lexikalisch identische Ausdrucke, als 
solche erkannt. Zudem beschränken sich die meisten Ansätze wie zuvor erwähnt auf die Auflösung von 
Anaphern. Für die sprachlichen Analysen kommen häufig Zerteiler und Abhängigkeitsgraphen zum 
Einsatz. Da diese Werkzeuge nur für Textdokumente belastbare Ergebnisse erzeugen, beschränken 
sich die meisten Ansätze zur Korreferenzanalyse auf die Analyse geschriebener natürlicher Sprache. 


Ein bekannter Vertreter dieser Kategorie ist der Ansatz von Lee et al. |Lee+11|]. Dieser stützt sich 


auf syntaktische Voranalysen der Sprache und verwendet eine konfigurierbare Sieb-Architektur. 
Durch die Einbindung in das Computerlinguistik-Fließband der Stanford University (Stanford 
Core NL a ist dieses Korreferenzanalyse-Werkzeug zudem weit verbreitet. Moderne Ansätze 
verwenden bestärkendes Lernen (engl. reinforcement learning), neuronale Netze und vortrainierte 
Sprachmodelle, wie das BERT-Modell [KG19}|Fei+19]. Ansätze, die gezielt für gesprochene Sprache 


3% Da die Kataphorik häufig als Stilmittel eingesetzt wird, um beispielsweise dem Leser die handelnde Entität 


zunächst vorzuenthalten, gilt dies insbesondere für spontane gesprochene Sprache, wie sie im Kontext von Prof,, 
angenommen wird. 


3! Stanford CoreNLP: https: //stanfordnlp.github. io/CoreNLP/, zuletzt besucht am 24.02.2021. 
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entwickelt wurden, betrachten explizit Dialoge mit häufigen Sprecherwechseln und jeweils kurzen 


Äußerungen ISMO3; TA04]. Dementsprechend beschäftigen sich diese Ansätze hauptsächlich mit 


der Auflösung der Referenzen, die sich auf die Dialogteilnehmer beziehen (z. B. J, you, etc.). 


7.5.2 Implementierung des Agenten zur Korreferenzanalyse 
von Nominalphrasen 


Der für Proy,,, entwickelte Agent verwendet Heuristiken und adaptiert die Stanford’sche Sieb- 


Architektur |Hey16]. Als Basis für die Heuristiken werden lexikalische und syntaktische Eigenschaf- 


ten der natürlichsprachlichen Äußerung verwendet. Zusätzlich wird — sofern vorhanden - der situative 
Kontext, der durch den entsprechenden Agenten aufgebaut wird, verwendet (siehe Abschnitt 7.4). 
Neben pronominalen Anaphern löst der Agent Identitäten auf, wobei ein Großteil der nötigen 


Analyseschritte für die Identitätserkennung bereits vom Kontext-Agenten geleistet wird. Neben 
den Wörtern der Äußerung verwendet der Agent für seine Analysen Wortart- und Chunk-Etiketten 
sowie semantische Rollen. Es bestehen somit Abhängigkeiten von den Ergebnissen der Vorverarbei- 
tungsstufen zur seichten Sprachverarbeitung und zur Erkennung von semantischen Rollen (siehe 
[Abschnitt 6.2]und [Abschnitt 6.4). Zusätzlich werden die Ergebnisse des Kontext-Agenten verwendet. 
Diese sind jedoch optional; viele der Analysen funktionieren auch ohne Kontext-Informationen. 


Stehen keine Kontext-Informationen zur Verfügung, werden Analyseschritte, die diese erfordern, 
automatisch übersprungen. Im Folgenden werden das Vorgehen des Agenten und die verwendeten 


Siebe genauer erläutert. 


Zunächst werden alle Nominalphrasen anhand der Chunk-Etiketten aus der Äußerung ausgelesen. 
Jede Nominalphrase ist zunächst ein möglicher Kandidat für einen referenzierenden oder referenzier- 
ten Ausdruck (Referent). Für jeden Kandidaten wird anschließend überprüft, ob es sich um einen 
referenzierenden Ausdruck handelt und auf welchen Referenten er sich gegebenenfalls bezieht. Das 
bedeutet, pro Kandidat für einen referenzierenden Ausdruck bilden alle anderen Nominalphrasen die 
Kandidatenmenge der potenziellen Referenten. Die Kandidatenmenge wird anschließend mithilfe der 
Siebe schrittweise reduziert. Siebe bilden jeweils eine zu untersuchende Eigenschaft des betrachteten 
Kandidaten bzw. der Elemente der Kandidatenmenge, wie zum Beispiel Genus oder Numerus, ab. Es 
gibt allgemeine Siebe, die zur Analyse aller Kandidaten eingesetzt werden können und spezialisierte 
Siebe, deren Analysen sich nur für bestimmte Arten von Referenzen eignen (näheres hierzu folgt). 
Hinsichtlich der Durchlässigkeit gibt es zwei Arten von Sieben, harte und weiche Siebe. Harte Siebe 
schließen bestimmte Kandidaten aus, während weiche Siebe den Konfidenzwert eines Kandidaten 
anpassen (beispielsweise durch die Multiplikation mit einem konstanten Faktor, falls eine bestimmte 
Bedingung zutrifft). Alle harten Siebe können auch als weiche Siebe konfiguriert werden; die 
Konfiguration erlaubt auch die Anpassung der Konfidenz-Faktoren der weichen Siebe. Zusätzlich 


kann die Reihenfolge der Siebe variiert werden, Siebe können entfernt und neue hinzugefügt werden. 


Die Kandidaten durchlaufen die Siebe; alle Kandidaten, die nach Durchlaufen aller Siebe nicht 
entfernt wurden und einen Konfidenzwert größer 0,1 aufweisen, werden im Graphen als neue 
Korreferenz hinterlegt. Hierzu wird eine neue Kante vom Typ contextRelation zwischen dem 
referenzierenden Ausdruck (Quelle) und dem referenzierten Ausdruck (Senke) erzeugt. In den 
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Attributen der Kante werden zudem die Art der Referenz und die Konfidenz hinterlegt. Durch die 
Verwendung von weichen Sieben ist es möglich, dass ein referenzierender Ausdruck mehrere Refe- 
renten referenziert. Anhand der Konfidenz ist trotzdem meist eine eindeutige Interpretation möglich. 
Gleichzeitig werden aber auch alternative Interpretationen der Referenz erzeugt. Andere Agenten 
können diese nutzen, falls die Korreferenz mit der höchsten Konfidenz nicht dem gewünschten 
Ergebnis entspricht oder das Analyseergebnis aufgrund weiterer Informationsquellen umgedeutet 
werden soll. 


Wie zuvor beschrieben, gibt es unterschiedliche Arten von Korreferenzen; es wurde bereits zwi- 
schen pronominalen Anaphern und Identitäten unterschieden. Diese beiden Gruppen können je 
nach Referent und Art des referenzierenden Ausdrucks noch weiter unterschieden werden. Die 
Kategorisierung der Referenzen dient dazu, je nach Kategorie unterschiedliche Sieb-Kombinationen 
für eine möglichst präzise Analyse der natürlichsprachlichen Äußerung einsetzen zu können. Bei 
Identitäten unterscheidet der Agent zur Korreferenzanalyse von Nominalphrasen anhand ihrer 
grammatikalischen Funktion im Satz. Da Referenten von Nominalphrasen gebildet werden, können 
sie entweder die Funktion eines Subjektes oder eines Objektes einnehmen; unterschieden werden 
dementsprechend Subjekt- und Objekt-Identitäten. Auch bei pronominalen Anaphern wird zwischen 
solchen unterschieden, die auf Subjekte oder Objekte referenzieren | Die referenzierenden Aus- 
drücke sind bei diesen beiden Kategorien Pronomen der zweiten Person oder dritten Person Singular. 
Die referenzierten Ausdrücke (Referenten) können wiederum entweder gleichartige Pronomen oder 
entsprechende Entitäten sein. Zusätzlich werden noch folgende Kategorien unterschieden: Gruppen 
und Sprecher. Pronomen der ersten Person Singular und Plural beziehen sich auf Referenten der 
Kategorie Sprecher. Im Kontext der Programmierung mit natürlicher Sprache ist darunter der 
menschliche Diskurspartner zu verstehen. Verwendet dieser in einer Äußerung einen Ausdruck, 
der sich auf sich selbst bezieht wie in bring the cup to me, entspricht der Ausdruck der Kategorie 
Sprecher. Zugehörige Referenten sind entweder wieder Pronomen, die den Sprecher repräsentieren, 
oder eine potenziell virtuelle Sprecherentität. Da sich menschliche Diskurspartner normalerweise 
nicht selbst benennen — insbesondere in imperativen Anweisungen — bleibt der Referent einer 
Korreferenz, die mit einem Pronomen der ersten Person gebildet wurde, zumeist anonym, wie in der 
bereits zuvor diskutierten Äußerung bring the cup to me. In solchen Fällen wird später eine virtuelle 
Sprecherentität durch den Agenten erzeugt. Die letzte Kategorie bilden referenzierende Ausdrücke, 
die mithilfe von Pronomen der dritten Person Plural gebildet werden und sich auf Gruppen beziehen. 
Die Referenten dieser Kategorie können gleichartige Gruppenpronomen oder mehrzahlige Subjekt- 
oder Objektentitäten sein. Ein Beispiel für eine Korreferenz dieser Kategorie ist die Äußerung locate 
the cup and the plate and bring them to me. Tabelle 7.14|gibt eine Übersicht über die Kategorien, 
zugehörige Referenten und referenzierende Ausdrücke. 


*° Diese Unterscheidung ist relevant, da Korreferenzen vorrangig zwischen Satzglieder mit derselben grammatikalischen 


Funktion gebildet werden |Hob78]. Das bedeutet, ein referenzierender Ausdruck, der als Satzobjekt fungiert, 
bezieht üblicherweise auch wieder auf einen Objekt. Daher werden Objekt- und Subjekt-Referenzen vom Agenten 
zur Korreferenzanalyse von Nominalphrasen unterschiedlich behandelt. Die Herstellung eines Bezuges zwischen 
referenzierenden Ausdruck und einem Referenten mit unterschiedlicher grammatikalischer Funktion ist dennoch 
möglich. Eine derartige Korreferenz wird nur als unwahrscheinlicher angesehen und erhält daher eine niedrigere 
Konfidenz. 
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Tabelle 7.14: Kategorisierung von Personalpronomen nach Bezugspunkten: Je Kategorie ist angegeben, welche Refe- 
renten potenziell referenziert werden können und wie die jeweiligen Pronomen gebildet werden. Zusätzlich sind alle 
referenzierenden Pronomen aufgelistet, die jeweils gebildet werden können. 


Kategorie potenzielle Referenten Bildung referenzierende Ausdrücke 

Sprecher Sprecherpronomen, (vir- 1. Per. Sing.: I, me, myself, mine, my 
tuelle) Sprecherentität 1. Per. Pl.: we, us, ourselves, ours, our 

Subjekt Subjektpronomen (gl. 2. Per.: you, yourself, yourselves 
Art), Subjektentitäten your, yours 


3. Per. Sing. Maskulin: he, him, himself, his 


3. Per. Sing. Feminin: she, her, herself, hers 


Objekt Objektpronomen, 3. Per. Sing. Neutrum: it, itself, its 
Objektentitäten 

Gruppen Gruppenpronomen, 3. Per. Pl.: they, them, themself, 
mehrzahlige Subjekt- themselves, their, theirs 


oder Objektentitäten 


Wie zuvor erläutert, gibt es Siebe, die allgemeingültig bei allen Arten von Korreferenz eingesetzt 
werden können, und solche, die nur für bestimmte Kategorien geeignet sind. In[Abbildung 7.6]ist 
diese Zuordnung dargestellt, wie sie in der Standardkonfiguration des Agenten vorgesehen is] Ein 
ausgefiilltes Feld bedeutet, dass das entsprechende Sieb fiir Korreferenzen der jeweiligen Kategorie 
eingesetzt wird; Siebe, die bei allen Kategorien Verwendung finden, sind allgemeingiiltige Siebe. 
Kursiv geschriebene Siebe sind weiche Siebe, die tibrigen harte (in der Standardkonfiguration). 
Siebe, die Kontext-Informationen verwenden, werden mit einem Stern (*) gekennzeichnet. Wie 
zuvor erläutert, werden diese nicht verwendet, wenn keine Kontext-Informationen verfügbar sind. 
Nachfolgend wird die Funktionsweise der einzelnen Siebe kurz erläutert. 


Reihenfolge: Dieses harte Sieb entfernt alle Kandidaten aus der Kandidatenmenge, die in der 
Äußerung nach dem referenzierenden Ausdruck stehen. Der Grund hierfür ist, dass nur pronominale 
Anaphern aber keine Kataphern analysiert werden sollen. Die Identitätsbeziehung ist hingegen 
bidirektional. Falls eine Identitätsbeziehung zwischen dem betrachteten referenzierenden Ausdruck 
und einer nachfolgenden Nominalphrase besteht, so wird dieser zu einem späteren Zeitpunkt 
gefunden (wenn die nachfolgende Nominalphrase als referenzierender Ausdruck betrachtet wird). 


Gleiche Kategorie: Dieses ebenfalls harte Sieb überprüft, ob die möglichen Referent-Kandidaten 
hinsichtlich der Kategorie (siehe [Tabelle 7.14) mit dem betrachteten referenzierenden Ausdruck 
übereinstimmen; alle anderen werden aus der Kandidatenmenge entfernt. Wird beispielsweise 


das Personalpronomen if als referenzierender Ausdruck betrachtet, verbleiben nur Kandidaten in 
der Kandidatenmenge, die entweder ebenfalls ein Objektpronomen (if, itself und its) oder eine 
Objektentität darstellen. 


3 Der Agent erlaubt eine freie Konfiguration der Sieb-Zusammenstellung. Es können also prinzipiell alle Siebe für alle 


Kategorien verwendet werden. 
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Abbildung 7.6: Zuordnung von Sieben zu Referenz-Arten: Die Darstellung zeigt den Zusammenhang zwischen Arten 
von Referenzen (Spalten) und Sieben (Zeilen), die in der Standardkonfiguration des Agenten verwendet werden. Ein 
ausgefülltes Feld symbolisiert die Verwendung eines Siebes für eine bestimmte Art. Siebe, die Kontext-Informationen 
verwenden, sind mit einem Stern (*) gekennzeichnet. 


Gleiche Aktion: Dieses harte Sieb entfernt alle Kandidaten aus der Kandidatenmenge, die Teil 
derselben Aktion wie der betrachtete referenzierende Ausdruck sind. Das Sieb gilt nur für Pronomen, 
die als referenzierender Ausdruck verwendet werden. Unter einer Aktion ist hier ein Prädikat 
mit allen zugehörigen A*-Rollen (Handelnder, behandeltes Objekt, etc., siehe Abschnitt 2.3.4.8) 
zu verstehen, wie durch den Erkenner semantischer Rollen annotiert (siehe [Abschnitt 6.4). Das 
Sieb sorgt also dafür, dass referenzierende Ausdruck und der Referent nicht zwei unterschiedliche 


A*-Rollen innerhalb derselben Aktion einnehmen können. In Äußerungen wie get the cup and fill 
water in it wird somit eine Korreferenz zwischen it und water ausgeschlossen. Eine Ausnahme 
bilden Reflexiv- und Possessivpronomen für die dieses Sieb nicht angewandt wird. 


Bedingte Verzweigung: Dieses weiche Sieb sorgt dafür, dass Korreferenzen zwischen Nominal- 
phrasen, die zu unterschiedlichen Gliedsätzen gehören (gemäß der in [Abschnitt 7.6| gegebenen 
Definition), als eher unwahrscheinlich eingestuft werden; die entsprechenden Kandidaten erhalten 


N 
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als neuen Konfidenzwert ihren vorherigen multipliziert mit dem Faktor 0,8. Das bedeutet, Korrefe- 
renzen zwischen einem Referenten der Teil eines Dann-Gliedsatzes und einem referenzierenden 
Ausdruck aus dem Andernfalls-Gliedsätze gelten als weniger wahrscheinlich. Da dieses Sieb von 
den Ergebnissen des Agenten zur Erkennung von bedingten Verzweigungen abhängt, kann es nur 
eingesetzt werden, falls die entsprechenden Informationen generiert werden. Falls der Agenten 
zur Erkennung von bedingten Verzweigungen nicht Teil der Konfiguration ist oder aus einem 
anderen Grund keine bedingten Verzweigungen extrahiert wurden, lässt dieses Sieb alle Kandidaten 
unverändert passieren. 


In diesem Beispiel soll demonstriert werden, wie die Struktur erkannter verbalisierter bedingter 
Verzweigungen genutzt wird, um die Wahrscheinlichkeit von Korreferenzkandidaten zu 
schätzen. Das Beispiel bezieht sich auf die in Abschnitt 7.6] beschriebenen Analysen des 
Agenten zur Erkennung von bedingten Verzweigungen. 


Natürlichsprachliche Sequenz 
if the plate is clean go to the fridge and open it otherwise wash it 


Potenzielle Korreferenzen 


Anapher 


Erläuterung 


Für dieses Beispiel sei der betrachtete referenzierende Ausdruck das Personalpronomen ir 


am Ende der Äußerung. Als Kandidaten für einen zugehörigen Referenten kommen die 


Nominalphrasen the plate, the fridge und it infrage. Die Erkennung verbalisierter bedingter 
Verzweigungen hat ergeben, dass es sich bei dem grün unterlegten Teil um den Konditionalsatz, 
beim orange unterlegten um den Dann-Gliedsatz und beim lila unterlegten um den Andernfalls- 
Gliedsatz handelt. Aus dem Kontext ist offensichtlich, dass die Korreferenz zwischen ir und 
the plate korrekt ist. Ein Hinweis darauf liefert die Zugehörigkeit der beiden Auftreten des 
Pronomens it und der Nominalphrase the fridge in unterschiedlichen Gliedsätzen. Da sich 
aber auch Beispiele konstruieren lassen, bei denen eine andere Interpretation der Referenzen 
richtig ist, wurde das Sieb als weiches Sieb implementiert. 
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Bezug: Dieses harte Sieb entfernt alle Kandidaten aus der Kandidatenmenge, die in der Äußerung 
weit vor dem referenzierenden Ausdruck stehen und dementsprechend höchstwahrscheinlich in 
keinem Bezug stehen. Es folgt der Intuition, dass Korreferenzen üblicherweise zwischen nah 
beieinander stehenden Ausdrücken auftreten. Wird eine Entität im Diskurs an entfernten Stellen 
referenziert, verwenden Sprecher für gewöhnlich eine namentliche Nennung statt einer pronominalen 
Anapher. Um die Entfernung in gesprochenen Äußerungen bemessen zu können, verwendet dieses 
Sieb die von der Vorverarbeitungsstufe zur seichten Sprachverarbeitung erzeugte Instruktionsnummer 
(siehe Abschnitt 6.2). Wörter mit derselben Instruktionsnummer bilden einen Gliedsatz, in dem 
eine Aktion oder ein Ereignis beschrieben wird. In der Standardkonfiguration entfernt das Sieb 


alle Kandidaten, die eine Instruktionsnummer aufweisen, die um sechs oder mehr verschieden 
von der Instruktionsnummer ist, die dem referenzierenden Ausdruck zugeordnet wurde. Das Sieb 
wird nur bei Gruppen- und Objektpronomen angewendet, da nur bei diesen Kategorien nach 
Anwendung der anderen harten Siebe viele Kandidaten verbleiben, sodass eine Filterung hinsichtlich 
einer maximalen Entfernung nötig wird. Der Grund hierfür ist, dass im Englischen die meisten 
Entitäten sächlich sind und die beiden Kategorien referenzierende Pronomen der 3. Person (Neutrum) 
betrachten. Das bedeutet, für diese Pronomen gibt es besonders viele Kandidaten. 


Semantische Rolle: Dieses weiche Sieb passt die Konfidenz der Kandidaten an, je nachdem welche 
A*-Rolle sie einnehmen (siehe|Abschnitt 2.3.4.8). Dabei wird die Konfidenz aller Kandidaten, die 
nicht dieselbe A *-Rolle wie der betrachtete referenzierende Ausdruck einnehmen, mit dem Faktor 


0,7 multipliziert (in der Standardkonfiguration). Die Intuition hinter diesem Vorgehen geht auf einen 
der ersten Ansätze zur Korreferenzanalyse von Jerry R. Hobbs zurück [Hob78]. Er beobachtete, 
dass Korreferenzen mit einer höheren Wahrscheinlichkeit zwischen Ausdrücken bestehen, die im 


Satz die gleiche grammatikalische Funktion bekleiden. Bei Äußerung wie the dog chased the cat 
then it fell asleep erachten Menschen intuitiv die Korreferenz zwischen it und the dog aufgrund der 
Satzstruktur als wahrscheinlicher als die zwischen it und the cat. Um die grammatikalische Funktion 
herzuleiten, analysierte Hobbs Syntaxbäume. Das hier verwendete Sieb verwendet semantische 
Rollen, das zugrundeliegende Prinzip ist jedoch dasselbe. Wie das Sieb gleiche Aktion wird das hier 
beschriebene Sieb nicht für Possessivpronomen angewandt. 


Konzept-Gleichheit: Dieses harte Sieb wird bei der Analyse von Objekt-Identitäten eingesetzt 
und erfordert Kontext-Informationen. Das Sieb behält nur Kandidaten bei, die entweder dasselbe 
Konzept oder ein Unterkonzept des referenzierenden Ausdrucks darstellen. Auf diese Weise gelingt 
es in Äußerungen wie get the popcorn and the juice and pass me the food die Identitätsbeziehung 
zwischen the food und the popcorn herzustellen. 


Objekt-Gleichheit: Dieses harte Sieb, welches für Objekt-Identitäten verwendet wird, prüft, ob zwei 
Kandidaten die gleiche Entität darstellen; alle anderen werden aus der Kandidatenmenge entfernt. Für 
jedes Kandidatenpaar wird überprüft, ob sie in alle zusätzlichen Eigenschaften (wie beispielsweise 
beschreibenden Adjektiven) übereinstimmen. Das Sieb verwendet hierzu die Entitätseigenschaften, 
die durch den Agenten zur Modellierung des sprachlichen Kontextes erzeugt wurden und ist somit 
von diesem abhängig. Ein referenzierender Ausdruck ist auch dann ein valider Kandidat wenn er nur 
eine Teilmenge der Eigenschaften des Referenten besitzt wie in locate the red cup bring the cup to 


me. 
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Namens-Gleichheit: Dieses harte Sieb prüft für Subjekt-Identitäten, ob die konkreten Benennungen 
der Kandidaten ähnlich sind, alle anderen Kandidaten werden aus der Kandidatenmenge entfernt. 
Ähnliche Nennungen stellen hierbei Teilphrasen dar, wie sie auftreten wenn bei Namen Vor- oder 
Nachnamen entfallen und Titel hinzugefügt werden. 


Artikel: Dieses harte Sieb entfernt bei Objekt-Identitäten alle Kandidaten aus der Kandidatenmenge, 
die einen unbestimmten Artikel besitzen. Das Sieb folgt der Intuition, dass unbestimmte Artikel 
verwendet werden, um Entitäten in den Diskurs einzuführen, nicht aber um auf vorangegangene 
Nennungen zu referenzieren. Der Unterschied kann an den Äußerungen get the cup und get a cup 
nachvollzogen werden. Während erste eine Identitätsbeziehung zu einer vorangegangenen Äußerung 
wie locate a cup erzeugen könnte, ist dies für die zweite Äußerung nicht möglich. 


Geschlecht: Dieses harte Sieb betrachtet das Geschlecht der potenziellen Referenten und entfernt 
alle Kandidaten, deren Genus nicht mit dem des referenzierenden Ausdrucks übereinstimmen. Das 
Sieb betrachtet nur das Femininum und Maskulinum; das bedeutet, es werden nur Korreferenzen 
der Kategorie Subjekt-Identität und Pronomen betrachtet. Die Information über das Geschlecht 
einer Entität entnimmt das Sieb den Entitätseigenschaften, die durch den Agenten zur Modellierung 
des sprachlichen Kontextes erzeugt wurden (siehe[Abschnitt 7.4). Das Geschlechter-Sieb ist somit 
ebenfalls von Kontextinformationen abhängig und wird beim Fehlen dieser nicht verwendet. 


Erfüllbarkeit des Zustands: Dieses weiche Sieb überprüft für Gruppen- und Objektpronomen, 
ob eine Zustandsänderung, die durch ein Ereignis, an dem der referenzierende Ausdruck beteiligt 
ist, für den Kandidaten-Referenten möglich ist. In der Äußerung ger me the full cup next to the 
empty glass and empty it ist es beispielsweise wahrscheinlicher, dass sich das Pronomen ir auf 
the full cup statt the empty glass bezieht, da das Glas im Gegensatz zur Tasse bereits leer ist. Für 
alle Kandidaten, auf die dies nicht zutrifft, wird die Konfidenz um den Faktor 0,66 verringert (in 
der Standardkonfiguration). Das Sieb verwendet für diese Analyse die Zustandsinformationen des 
Agenten zur Modellierung des sprachlichen Kontextes. 


Spatial Deixis: Dieses weiche Sieb prüft bei Subjekt-, Gruppen- und Objektpronomen, ob 
Kandidaten-Referenten im Diskurs nur genannt werden, um die räumliche Ordnung anderer 
Entitäten zu beschreiben; die Konfidenz aller Kandidaten, auf die dies zutrifft, wird mit dem Faktor 
0,25 multipliziert. In Äußerungen wie take the cup next to the popcorn and pass it to me wird die 
Entität the popcorn nur erwähnt, um the cup näher zu beschreiben; eine Korreferenz zwischen it 
und the cup ist somit deutlich wahrscheinlicher. 


Entitäten stehen bereits in Verbindung: Dieses harte Sieb entfernt bei Objekt- und Subjekt- 
Identitäten alle Kandidaten aus der Liste, bei denen bereits eine Korreferenzbeziehung aus einem 
früheren Analyseschritt bekannt ist. Dies ist nötig, da Identitätsbeziehungen (wie zuvor diskutiert) 
bidirektional und transitiv sind und somit einer iterativen Analyse aller Kandidatenpaare Dopplungen 
auftreten können. 


Reflexivität: Dieses harte Sieb prüft für Reflexivpronomen, ob potenzielle Referenten im unmittel- 
baren Kontext geäußert werden; alle anderen Kandidaten werden aus der Kandidatenmenge entfernt. 
Dieses Vorgehen kann darauf zurückgeführt werden, dass mithilfe von Reflexivpronomen bei einem 
Ereignis oder einer Aktion ein Rückbezug auf den Handlungsträger stattfindet wie beispielsweise 
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in John washes himself. Der Bezugsrahmen für Reflexivpronomen wird daher auf Entitäten mit 
derselben Instruktionsnummer beschränkt (siehe | Abschnitt 6.2). 


Meronymie: Dieses weiche Sieb wird ausschließlich für Possessivpronomen eingesetzt. Posses- 
sivpronomen stellen einen Sonderfall dar, da sie immer an eine benannte Entität gebunden sind. 
Sind zusätzlich Teil-Ganzes-Beziehungen (Meronymie) zwischen den Entitäten bekannt (siehe 
[Abschnitt 7.4), können die Possessivpronomen genutzt werden, um die Konfidenzen der potenziellen 
Referenten anzupassen. Korreferenzen zwischen einem Possessivpronomen (und der zugehörigen 
Entität), das einen Teil darstellt, und einem referenzierten Ausdruck, der das Ganze ist, gelten 
dabei als wahrscheinlicher. Die Konfidenzen aller anderen Kandidaten werden mit dem Faktor 0,75 
multipliziert. In der Äußerung open the door of the fridge take out the milk then close its door 
kann so gefolgert, dass sich its door wahrscheinlicher auf the fridge als auf the milk bezieht. 


Abstand: Dieses weiche Sieb wird für alle Kategorien von referenzierenden Ausdrücken angewandt 
und bewertet die potenziellen Referenten anhand des Abstands zum betrachteten referenzierenden 
Ausdruck. Die Intuition hinter diesem Vorgehen ist, dass die Wahrscheinlichkeit für eine Korreferenz 
zwischen zwei Ausdrücken mit dem Abstand voneinander abnimmt. Das Sieb betrachtet alle 
Kandidaten, die den höchsten (und gleichen) Wert für die Konfidenz teilen. Unter diesen Kandidaten 
(mit der höchsten Konfidenz), gilt derjenige als wahrscheinlichster, der dem referenzierenden 
Ausdruck am nächsten steht; alle übrigen Kandidaten werden um einen konstanten Faktor reduziert, 
der sich aus der Anzahl der verbliebenen Kandidaten ableitet. Da diese Berechnung von der 
Anzahl der verbleibenden Kandidaten abhängt und alle Konfidenzen bis auf eine angepasst werden 
müssen, empfiehlt es sich das Abstands-Sieb als letztes Sieb einzusetzen (so wie es auch die 
Standardkonfiguration vorsieht). Die Ausgabe des Abstands-Siebes entspricht dementsprechend 


dem finalen Analyseergebnis, das wie zuvor beschrieben im Pro, -Graphen hinterlegt wird. 


In diesem Beispiel soll das Zusammenspiel der Siebe zur Ermittlung der wahrscheinlichsten 
Korreferenz für einen betrachteten referenzierenden Ausdruck demonstriert werden. Das 
Beispiel nimmt Bezug auf die in welcher die Kandidaten nacheinander eine 
beispielhafte Sieb-Konfiguration für Objektpronomen durchlaufen. Für die nachfolgende 
Äußerung soll für den referenzierenden Ausdruck it (grün in der Abbildung) ermittelt werden, 
welcher der potenziellen Referenten (orange) am wahrscheinlichsten der korrekten Referenz 
entspricht. 


Natürlichsprachliche Sequenz 


Robo put the plates on the table go to the fridge open the fridge and take the water out ofthe 
fridge then go to the table if the cup on the table isn’t empty bring the cup to me otherwise 
take the cup and fill the water in it then come to me 
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Erläuterung 


Das erste Sieb in der Beispielkonfiguration ist das Reihenfolge-Sieb. Diese entfernt No- 
minalphrasen, die nach dem referenzierenden Ausdruck auftreten, im Beispiel das letzte 
vorkommende me. Das Sieb Gleiche Kategorie entfernt Nominalphrasen, die nicht derselben 
Kategorie angehören wie der referenzierende Ausdruck (siehe Tabelle 7.14), im Beispiel das 
andere vorkommende me. Anschließend wird im Sieb bedingte Verzweigung die Konfidenz 
aller Kandidaten, die in einem anderen Gliedsatz einer Bedingungsstruktur auftreten als 
der referenzierende Ausdruck, verringert. Im Beispiel trifft das nur auf the cup im Dann- 
Gliedsatz bring the cup to me zu. Das Sieb Gleiche Aktion schließt alle Kandidaten aus, 
die in derselben Aktion wie der referenzierende Ausdruck, aber in einer anderen A*-Rolle 
auftreten (siehe |Abschnitt 2.3.4.8). Im Beispiel betrifft dies das letzte vorkommende the 
water. Das Numerus-Sieb schließt im Beispiel alle Entitäten im Plural aus; das bedeutet, the 


plates wird aus der Kandidatenmenge entfernt. Anschließend werden durch das Sieb Bezug 
alle Kandidaten ausgeschlossen, die in der Äußerung zu weit entfernt vom referenzierenden 
Ausdruck auftreten (Unterschied der Instruktionsnummern größer sechs). Im Beispiel betrifft 
dies alle Kandidaten vor dem ersten Vorkommen von the water. Das Sieb semantische Rolle 
wertet alle Kandidaten ab, die eine andere semantische Rolle bekleiden als der referenzierende 
Ausdruck. Für die verbleibenden Kandidaten im Beispiel hat das den Effekt, dass nur die 
Konfidenzen von the water und der letzten beiden Vorkommen von the cup unverändert 
bleiben. Da in der Äußerungen zwar durch das Ereignis fill eine Zustandsänderung der Entität 
the cup herbeigeführt wird, diese Änderung aber im Kontext möglich ist, verändert das Sieb 
Zustand die vorhandenen Konfidenzen nicht. Das letzte Vorkommen the table wird im Beispiel 
nur verwendet, um die nachfolgende Nominalphrase the cup näher zu beschreiben. Das Sieb 
Spatial Deixis verringert die Konfidenz des Kandidaten entsprechend. Zuletzt wird das Sieb 
Abstand verwendet, um die finale Entscheidung für einen Kandidaten zu treffen. Nur zwei 
weisen einen Konfidenzwert von 1,0 auf, the water und das letzte Vorkommen von the cup. 
Letzterer weist einen geringeren Abstand zum referenzierenden Ausdruck auf, seine Konfidenz 
bleibt entsprechend unverändert; die Konfidenz aller anderen Kandidaten wird hingegen 
verringert. Letztlich wird also die Nominalphrase the cup (aus der Phrase otherwise take the 
cup and fill water in it) als wahrscheinlichster Referent ausgewählt. Diese Wahl ist für diese 


Beispieläußerung die richtige. 


7.5.3 Evaluation des Agenten zur Korreferenzanalyse von 
Nominalphrasen 


Die Evaluation des Agenten zur Korreferenzanalyse von Nominalphrasen wird anhand von Transkrip- 


tionen zu den Szenarien eins bis sieben des Pro, -Korpus durchgeführt. Einige der Äußerungen 


zu den ersten fünf Szenarien wurden während der Entwicklung des Agenten verwendet (siehe 


Abschnitt 7.5.2 


. Dies betrifft jeweils die ersten zehn Transkriptionen zu den Szenarien eins bis drei 


und jeweils die ersten neun zu den Szenarien vier und fünf; dieser Teil des Korpus wird gesondert 
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put on go to open and take 
out of se then go to if on isn’t empty 
bring to otherwise take and fill in it then come to 


Reihenfolge 
Gleiche Kategorie 


bedingte Verzweigung 


Gleiche Aktion 
Allgemeine 


{the table(1,0), the fridge(1,0), the fridge(1,0), the water(1,0), the fridge(1,0), 
the table(1,0), the cup(1,0), the table(1,0), the cup(0,8), the cup(1,0)} 


1 Bezug ] 


{the water(1,0), the fridge(1,0), the table(1,0), the 
cup(1,0), the table(1,0), the cup(0,8), the cup(1,0)} 


\ semantische Rollen / 


{the water(1,0), the fridge(0,7), the table(0,7), the 
cup(0,7), the table(0,7), the cup(0,8), the cup(1,0)} 


\ Zustand / 


{the water(1,0), the fridge(0,7), the table(0,7), the 
cup(0,7), the table(0,7), the cup(0,8), the cup(1,0)} 


\ Spatial Deixis / 
{the water(1,0), the fridge(0,7), the table(0,7), the 
cup(0,7), the table(0,18), the cup(0,8), the cup(1,0)} 


{the water(0,85), the fridge(0,6), the table(0,6), the 
cup(0,6), the table(0,15), the cup(0,7), the cup(1,0)} 


Abbildung 7.7: Beispiel zur Korreferenzanalyse von Nominalphrasen: Dargestellt ist eine beispielhafte Äußerung, welche 
die Sieb-Architektur durchläuft, um für die Nominal-Phrase ir als referenzierenden Ausdruck den passenden Referenten 
zu identifizieren. 
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Tabelle 7.15: Ergebnisse der Evaluation des Agenten zur Korreferenzanalyse von Nominalphrasen: Die Tabelle zeigt die 
Ergebnisse für die Basisvariante (Basis) und bei Verwendung des sprachlichen Kontextes (Kont.). Außerdem werden die 
erzielten Ergebnisse des Korreferenzanalysewerkzeugs der Stanford University (Stan.) als Referenzwerte angegeben. 
Präzision Ausbeute Fi 

Korpus Stan. Basis Kont. |Stan. Basis Kont. |Stan. Basis Kont. 
Si—5 (Entw.)|0,743 0,922 0,936 |0,491 0,848 0,920 [0,591 0,884 0,928 
Sı-5 (Rest) |0,773 0,841 0,890 10,544 0,786 0,885 [0,639 0,812 0,887 
S6+7 0,728 0,797 0,848 |0,607 0,786 0,859 |0,662 0,791 0,854 
Gesamt 0,746 0,837 0,881 10,561 0,799 0,881 |0,640 0,818 0,881 


betrachtet. Die Äußerungen zu den Szenarien sechs und sieben wurden erst nach der Entwicklung 
des Agenten aufgezeichnet; daher werden auch diese in der Evaluation als gesonderter Datensatz 
betrachtet. Der Datensatz der bereits zur Entwicklung verwendeten Äußerungen umfasst 48, der 
Datensatz der übrigen Äußerungen zu den Szenarien eins bis drei umfasst 98 und der Datensatz der 
Äußerungen zu den Szenarien sechs und sieben umfasst 21 Transkriptionen. 


Für alle Transkriptionen wurde ein Goldstandard erstellt, indem für jede Äußerung alle referenzie- 
renden Ausdrücke und zugehörigen Referenten manuell annotiert wurden. Es wurden zwei Varianten 
des Agenten evaluiert: eine Basis-Variante und eine zweite Variante, die Kontext-Informationen 
verwendet. Um die Ergebnisse der Basis-Variante zu erzeugen, wurde zunächst das vollständige 
Vorverarbeitungsfließband durchlaufen und anschließend der Agent zur Korreferenzanalyse von 
Nominalphrasen genau einmal ausgeführt. Da auf diese Weise keine Informationen über den 


sprachlichen Kontext vorliegen, verwendet der Agent nur die Siebe, die in Abbildung Abbildung 7.6 


nicht mit einem Stern gekennzeichnet sind*4| Für die zweite Variante wurde ebenfalls das Vorverar- 
beitungsfließband ausgeführt, anschließend der Agent zur Erkennung von bedingten Verzweigungen. 
Zuletzt wurden die Agenten zur Modellierung des sprachlichen Kontexts und zur Korreferenzanalyse 
von Nominalphrasen so lange im Wechsel ausgeführt, bis (über zwei Iterationen) keine Änderung am 
Graphen festzustellen waren. Zum Vergleich wurde das Stanford’sche Korreferenzanalysewerkzeug 


auf die Transkriptionen angewendet |Lee+11]. Dieses ist auf textuelle Dokumente optimiert und 


verwendet syntaktische Analysen, wie Syntaxbäume und Abhängigkeitsgraphen, die nur schlecht 
auf gesprochene Äußerungen angewendet werden können. Der Vergleich ist damit nur bedingt aus- 
sagekräftig; es kann jedoch gezeigt werden, warum eine Sonderlösung für gesprochene Äußerungen 
nötig ist und nicht stattdessen ein Standardwerkzeug verwendet werden kann. 


Die Ergebnisse der Evaluation sind in aufgeführt. Wie zu erwarten, übertrifft die 
für Prof; entwickelte Sonderlösung das Stanford’sche Standardwerkzeug auf allen Datensätzen 
sowohl hinsichtlich der Präzision als auch der Ausbeute. Insgesamt erzielt das Stanford’sche 
Standardwerkzeug für das Fı-Maß einen Wert von 0,640. Die Basis-Variante des Agenten erreicht 
hingegen 0,818 und die Variante, die Kontextinformationen verwendet, sogar 0,881. Dieses sehr 
gute Ergebnis ist im Fall der Basis-Variante vor allem auf eine sehr gute Präzision zurückzuführen. 


* Die Basis-Variante verwendet darüber hinaus auch keine Informationen, die durch andere Agenten, wie etwa dem 


Agenten zur Erkennung von bedingten Verzweigungen, zur Verfügung gestellt werden. 
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Die Kontext-Variante steigert vor allem die Ausbeute deutlich; gleichzeitig gelingt ein weiterer 
Zuwachs an Präzision. Betrachtet man die Ergebnisse je Datensatz, zeigt sich, dass für den 
Entwicklungsdatensatz erwartungsgemäß die besten Ergebnisse erzielt wurden (F1: 0,927). Für die 
restlichen Transkriptionen zu den Szenarien eins bis fünf zeigt sich eine leichtere Verschlechterung 
(Fı: 0,887). Die Ergebnisse für die Transkriptionen zu den Szenarien sechs und sieben sind nochmals 
etwas schlechter. Auch diese Entwicklung war zu erwarten, da diese Transkriptionen komplexere 
Beschreibungen enthalten als der Großteil zu den Szenarien eins bis fünf. Trotzdem wird auch hier 
für die Korreferenzanalyse für das Fı-Maß ein sehr guter Wert von 0,854 erreicht. Insgesamt zeigt 
die Evaluation, dass ein auf gesprochene Sprache angepasster Ansatz zur Korreferenzanalyse bessere 
Ergebnisse erzielen kann als ein Standardwerkzeug. Außerdem ist die Verwendung des sprachlichen 


Kontextes vorteilhaft. 


7.6 Synthese von Kontrollstrukturen 


Kontrollstrukturen sind neben Anweisung das wesentliche Konstrukt nahezu aller Programmier- 
sprachen. Ohne Kontrollstrukturen würden Programme nur aus sequenziellen Anweisungsfolgen 
bestehen; der wirkliche Nutzen von Programmierung entsteht erst durch Kontrollstrukturen, wie 
bedingten Verzweigungen und Schleifen. Dasselbe gilt für die Programmierung mit natürlicher 
Sprache. Sollen Endnutzer befähigt werden, Programme in Alltagssprache zu formulieren, so 
müssen Kontrollstrukturen in natürlichsprachlichen Äußerungen erkannt und in ihre program- 
matischen Pendants überführt werden. Die in Programmiersprachen üblichen Kontrollstrukturen 
sind lediglich Formalisierungen menschlicher Denkprozessen. Schleifen sind beispielsweise nur 
die Formalisierung von Wiederholungen (z. B. von Ereignissen) und bedingte Verzweigungen 
formalisieren Fallunterscheidungen (die unter gewissen Voraussetzungen getroffen werden). Das legt 
die Vermutung nahe, dass auch in natürlicher Sprache Konstrukte existieren, die Kontrollstrukturen 
beschreiben. Tatsächlich existieren bestimmte Formulierungen und Satzstrukturen, die zur Formulie- 
rung von Kontrollstrukturen verwendet werden. Allerdings sind die Varianten in natürlicher Sprache 
vielfältiger. Folgen Kontrollstrukturen in Programmiersprachen der jeweils fest vorgegebenen Syntax, 
so können Kontrollstrukturen in natürlicher Sprache nahezu beliebig formuliert werden; häufig 
können sie nur anhand der Semantik (oder ggf. der Pragmatik) interpretiert werden. 


Aufgrund dieser Komplexität ist der Umgang mit Kontrollstrukturen in der Literatur sehr unterschied- 
lich. Ansätze, die sich als Sprachschnittstelle zum Quelltext-Diktat verstehen, umgehen das Problem 
der semantischen Interpretation der Nutzereingabe [Pri+00} Beg04} BGOS}[DFN06|]. Stattdessen 
erwarten diese Ansätze vom Nutzer syntaktisch korrekt diktierten Quelltext, einschließlich etwaiger 


Kontrollstrukturen. Bei Ansätzen, die das Ziel der Endnutzer-Programmierung mit natürlicher 
Sprache verfolgen, gibt es im Wesentlichen zwei Strömungen. Zur ersten gehören Ansätze, die bei 
jeder Eingabe die Verbalisierung einer Kontrollstruktur erwarten, normalerweise eine bedingte 


Verzweigung [LGS13}|QMG15} BQ16]. Genauer gesagt erwarten Sie vom Nutzer, dass dieser 


zunächst eine Bedingung formuliert und anschließend die auszuführenden abhängigen Aktionen. 
Diese Art der fest vorgeschriebenen Formulierungen für bedingte Verzweigung werden als Wenn- 
Dann-Rezepte (engl. If-Then Recipes) bezeichnet. Ansätze der zweiten Strömung erlauben den 
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Einsatz von Kontrollstrukturen an beliebigen Stellen des verbalisierten Programms. Viele dieser 
Ansätze nutzen einen Sprach-Formalismus wie kombinatorische Kategorialgrammatiken (engl. 
Combinatory Categorial Grammar, kurz CCG), lexikalisch-funktionale Grammatiken (engl. Lexikal- 
Functional Grammar, kurz LFG) oder Phrasenkopf-getriebene Phrasenstruktur-Grammatiken (engl. 
Head-driven Phrase Structure Grammar, kurz HPSG), um die Semantik der natürlichsprachlichen 
Eingabe zu erfassen [KB82} PS94} |Z.COS} [ZC07]. Die Formalismen bieten unter anderem auch 
Konstrukte zur Interpretation von Kontrollstrukturen. Ein Vertreter dieser Kategorie ist der Ansatz 


von Vadas und Curran [|VCO5]. Andere Ansätze verwenden Computerlinguistik-Fließbänder und in- 


terpretieren anschließend die natürlichsprachlichen Äußerungen anhand der Syntax [LLOSa} MLLO6} 


LH15]. Abgesehen von den Ansätzen zum Quelltext-Diktat, haben alle Ansätze gemein, dass sie 


ausschließlich geschriebene Sprache akzeptieren. Sowohl die Wenn-Dann-Rezepte, als auch die 
Sprach-Formalismen und die Syntax-basierten Ansätze sind auf Interpunktion und grammatikalisch 
korrekte Formulierungen angewiesen. 


Für Prof; wurden daher neue Ansätze zur Synthese von Kontrollstrukturen entwickelt [WHS 18a} 


WHS18b]. Betrachtet wurden die Kontrollstrukturarten bedingte Verzweigung, Nebenläufigkeit 


und Schleife, für die jeweils ein eigener Pro y_,-Agent implementiert wurde. Die in den Agenten 
verwendeten Analysen sind zwar ebenfalls Syntax-basiert, jedoch leichtgewichtiger als vergleichbare 
Ansätze, da als Grundlage nur robuste Phrasen-Chunks verwendet werden. Zudem werden die 
natürlichsprachlichen Äußerungen nur partiell zerteilt, um nicht auf vollständig korrekte Eingaben 
angewiesen zu sein. Mithilfe von Korreferenzinformationen wird zudem eine einfache Interpretation 
der Semantik vorgenommen, um die Ergebnisse weiter zu verbessern. Im Folgenden werden die 
Agenten einzeln vorgestellt; dabei werden zunächst die linguistischen Hintergründe diskutiert, bevor 
die Implementierung und schließlich die Evaluation der Agenten beschrieben wird. 


7.6.1 Bedingte Verzweigungen in natürlicher Sprache 


Der Ansatz zur Erkennung von bedingten Verzweigungen basiert auf der Analyse wiederkehrender 
Satzstrukturen, die Bedingungen ausdrücken. Aus diesem Grund werden im Folgenden kurz die 
grundlegenden linguistischen Eigenschaften von Bedingungen in natürlicher Sprache diskutiert. 


In der Linguistik gibt es keine einheitliche Definition für den Begriff Bedingung. Da die meisten Spra- 
chen viele unterschiedliche Formen (und Formulierungen) zulassen, sind ohnedem nur generische 
Definitionen plausibel. Eine solche liefern Declerck und Reed für die englische Sprache [DRO1]: 


„A conditional is a two-clause structure in which one of the clauses is introduced by if 
(possibly preceded by only, even or except) or by a word or phrase that has a meaning 


similar to if, only if (e.g. provided) or except if (viz. unless).“>> 


> Zu deutsch: Ein Bedingung ist eine Struktur aus zwei Gliedsätzen, in welcher einer der Gliedsätze durch das 


Schlüsselwort if (gegebenenfalls gefolgt von only, even oder except) oder durch ein Wort oder eine Phrase mit einer 
vergleichbaren Bedeutung wie if bzw. only if (z. B. provided) oder except if (nämlich unless) eingeleitet wird. 
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Bedingungen bestehen immer aus einem Konditionalsatz, in dem eine Bedingung formuliert 
wird, und einem Hauptsatz, in dem die von der Bedingung abhängige Aussage formuliert wird?>| 
Zusätzlich wird in der Literatur zwischen zwei unterschiedlichen Arten von Bedingungen unter- 


schieden: Ereignis-Bedingungen und voraussetzende Bedingungen [Hae03]. Ereignis-Bedingungen 


beschreiben Ereignisse oder (eintretende) Zustände in einem Konditionalsatz, die wiederum zu 
einem Ereignis (oder einer Zustandsänderung) führen, das in der Hauptphrase beschrieben wird. 
Voraussetzende Bedingungen hingegen gliedern den Diskurs, indem im Konditionalsatz Bezug 
auf eine vorangegangene Äußerung genommen wird. Für die Erkennung von Bedingungen im 
programmatischen Sinne sind damit lediglich Ereignis-Bedingungen relevant; dementsprechend 
fokussieren sich die nachfolgenden Betrachtungen auf diese Art von Bedingungen. 


Wie zuvor beschrieben, bestehen Bedingungen in natürlicher Sprache immer aus einem Konditio- 
nalsatz, in dem die Bedingung formuliert wird und einem Hauptsatz. Der Hauptsatz kann weiter 
untergliedert werden, in einen Dann-Gliedsatz und einen optionalen Ansonsten-Gliedsatz. Im 
nachfolgenden Beispielsatz sind die unterschiedlichen Gliedsätze markiert: 


[If the kitchen is dirty, wenn [clean it]pann [and otherwise just wait.) ansonsten 


Auf diese Weise entsteht eine Wenn-Dann-Ansonsten-Struktur, die der aus Programmiersprachen 
bekannten Struktur verzweigter Bedingungen in if, then und else stark ähnelt. Diese Ähnlichkeit 
besteht nicht zufällig; zwar sind Programmiersprachen formale Sprachen, beim Entwurf wurden 
allerdings viele Elemente natürlicher Sprachen in abgewandelter Form übernommen. Die Begrün- 
dung hierfür liegt darin, dass Konstrukte wie Bedingungen in natürlicher Sprache auf bestimmte 
Denkmuster zurückgeführt werden können (in diesem Fall Voraussetzungen und Fallunterschei- 
dungen). Diese Muster werden dann nur in natürlicher Sprache ausgedrückt. Beim Entwurf von 
Programmiersprachen wurde die Ausdrucksart übernommenen, um die vorhandenen Denkmuster 
zu unterstützen. 


Betrachtet man näher, wie Bedingungen im Englischen formuliert werden, so fällt zunächst auf, 
dass im Wesentlichen zwei Reihenfolgemuster auftreten: 


1. ein Konditionalsatz, gefolgt von einem Dann-Gliedsatz und einem optionalen Andernfalls- 
Gliedsatz: Wenn-Dann-(Ansonsten) 


2. ein Dann-Gliedsatz, gefolgt von in Konditionalsatz und einem optionalen Andernfalls- 
Gliedsatz: Dann-Wenn-(Ansonsten) 


Die erstgenannte Struktur ist jedoch die deutlich verbreiterte. Hinsichtlich der Formulierungen der 
Konditionalsätze bietet die englische Sprache eine Vielzahl von Variationen. Zwar beschreiben 


%6 Dies gilt zumindest für germanische Sprachen. 
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Declerck und Reed wie zuvor diskutiert, dass Konditionalsätze immer von einem Schlüsselwort 
oder einer Phrase eingeleitet werden. Allerdings gibt es eine Vielzahl von möglichen Synonymen 
und Umschreibungen. Ein Beispiel für letzteres ist die Äußerung the longer you rinse it, the more it 
will get clean, die kein Schlüsselwort enthält und die Bedingung nur durch Erfassung der Semantik 


der gesamten Aussage erkennen lässt. 


Diese vielfältigen Ausprägungen der Semantik von Bedingungen erschwert die Formalisierung in 
einem allgemeingültigen Modell. Bedingungen können in natürlichsprachlichen Äußerungen in 
unterschiedlichen Kontexten verwendet werden und daher beliebige Bedeutungen tragen. Für den 
Agenten zur Erkennung von verzweigten Bedingungen wird angenommen, dass alle in natürlicher 
Sprache formulierten Bedingungen in programmatische if-then-else-Strukturen überführt werden 
können. Das bedeutet auch, dass eine bedingte Verzweigung immer mindestens aus einem Kon- 
ditionalsatz und einem Dann-Gliedsatz bestehen muss. Andernfalls ist weder die Semantik der 
Bedingung seitens der natürlichen Sprache klar, noch lässt sie sich in ihr programmatisches Pendant 


überführen. 


Die Aufgabe des Agenten soll es sein, die Satzglieder in die programmatische Struktur zu überführen. 
Es wird an dieser Stelle keine Überprüfung der Bedingung oder der Überführbarkeit der Dann- 
und Andernfalls-Gliedsätze in Quelltext vorgenommen. Die Herausforderungen bestehen dement- 
sprechend hauptsächlichen darin, zum einen die oben beschriebenen Reihenfolge der Gliedsätze 
zu bestimmen sowie festzustellen, ob alle nötigen (Konditionalsatz und Dann-Gliedsatz) und 
optionalen Bestandteile (Andernfalls-Gliedsatz) vorhanden sind. Zum anderen muss der Umfang 
der jeweiligen Bestandteile bestimmt werden. In Programmiersprachen sind die Bedingung (if) 
sowie die then- und else-Blöcke eindeutig anhand der Syntax bestimmbar, beispielsweise durch 
eine entsprechende Klammerung. In natürlichen Sprachen hingegen ist eine solche Unterstützung 
durch die Syntax nicht gegeben; es muss stattdessen anhand der Semantik entschieden werden, auf 
welche nachfolgenden Aussagen sich ein Konditionalsatz bezieht. Im Folgenden wird der Umfang 
von Dann- und Andernfalls-Gliedsätze als Bezugsrahmen des Konditionalsatzes bezeichnet. 


Die Bestimmung des Bezugsrahmens ist selbst für einfache Beispiele nicht eindeutig möglich; 
beispielsweise ist bei der Äußerung if I’m still at work do the laundry then clean the kitchen unklar, 
ob sich die Bedingung auf die beiden nachfolgenden Äußerungen oder nur auf die erste bezieht. Ist 
ein Andernfalls-Gliedsatz vorhanden, so begrenzt dieser die Dann-Gliedsätze (in der Wenn-Dann- 
Ansonsten-Struktur). Ist dieser jedoch nicht vorhanden, findet keine syntaktische Eingrenzung statt. 
Gleiches gilt für Andernfalls-Gliedsätze, die grundsätzlich syntaktisch unbegrenzt sind. Für die 
Dann-Wenn-Ansonsten-Struktur gilt, dass Dann-Gliedsätze syntaktisch durch den Konditionalsatz 
begrenzt sind. Allerdings ist in diesem Fall der Beginn des Bezugsrahmens unklar. Die Aufgabe 
der Bestimmung des Bezugsrahmens wird durch die Fokussierung von Prof% auf gesprochenen 
Sprache zusätzlich erschwert. Neben den grundsätzlichen Herausforderungen, wie falsch erkannten 
Wörtern und Disfluenzen bzw. Reparaturen, ist an dieser Stelle das Fehlen der Interpunktion von 


besonderer Bedeutung (siehe [Abschnitt 2.3.12). Mithilfe der Interpunktion können in geschriebener 


Sprache viele mehrdeutige Fälle ausgeschlossen werden. 
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In diesem Beispiel soll der Unterschied in der Interpretierbarkeit von gesprochenen und 
geschriebenen Äußerungen demonstriert werden. Das Beispiel betrachtet ausschließlich die 
Unterschiede, die aufgrund der fehlenden Interpunktion gesprochener Äußerungen auftreten. 


Natürlichsprachliche Sequenzen 


Geschrieben: 
(1) Clean the kitchen. If I am still at work do the laundry. 
Gesprochen (transkribiert): 


(2) clean the kitchen if I am still at work do the laundry 


Erläuterung 


Im Fall der geschriebenen Äußerung ist die Interpretation eindeutig. Da die erste Aussage in 
einem eigenen Satz formuliert wurde, bezieht sich der Konditionalsatz auf die nachfolgende 
Aussage. Im Fall der Transkription ist der Bezug jedoch unklar. Ohne Interpunktion kann 
die Äußerung entweder so gedeutet werden, dass sich der Konditionalsatz ebenfalls auf die 


nachfolgende Äußerung bezieht, alternativ ist aber auch ein Bezug auf die vorherige möglich?”| 


Das Ziel von Prof, ist die Programmierung mit uneingeschränkter gesprochener Sprache. Für 
die Erkennung von verzweigten Bedingungen bedeutet das, eine Lösung muss neben den üblichen 
Herausforderungen natürlicher Sprache auch mit Äußerungen variabler Länge umgehen können, 
die zudem beliebig formuliert sind. Außerdem kann nicht davon ausgegangen werden, dass jede 
Aussage genau eine Bedingung und davon abhängige Aktionen enthält (eine Einschränkung, die von 
verwandten Arbeiten häufig getroffen wird). Vielmehr kann eine Äußerung eine beliebige Anzahl an 
verzweigten Bedingungen enthalten (oder auch keine) und von jeder Bedingung kann eine beliebige 
Menge von Aktionen (in den Gliedsätzen) abhängen. 


Aufgrund dieser Rahmenbedingungen ist ein Entwurfsziel für den Agenten, möglichst viele richtige, 
vor allem aber auch nachvollziehbare und vorhersagbare Ergebnisse zu erzeugen. Daher ist der 
Ansatz regelbasiert; er extrahiert mithilfe von Heuristiken auf Basis der Syntax der Äußerungen 
und Schlüsselwörtern bedingte Verzweigungsstrukturen. Das grundsätzliche Vorgehen ist dabei 
konservativ. Nur Phrasen, die sicher einem Bestandteil zugeordnet werden können, werden extrahiert. 
Dies betrifft insbesondere den zuvor diskutierten Umfang der Bezugsrahmen einer Bedingung. Das 
bedeutet, der Ansatz legt mehr Wert auf eine hohe Präzision als auf eine hohe Ausbeute. 


37 Eine eindeutige Interpretation der gesprochenen Äußerung ist gegebenenfalls anhand der Intonation möglich. Eine 


Betrachtung dieser steht Pro, aufgrund der Projekt-Struktur jedoch nicht zur Verfügung. Außerdem gibt es für 
die Interpretation der Intonation noch keine zuverlässigen Lösungen. 
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Tabelle 7.16: Schlüsselwörter und -phrasen zur Erkennung der Bestandteile von bedingten Verzweigungen in natürlicher 
Sprache. 


Bestandteil Schlüsselwörter/-phrasen 


Wenn (Konditionalsatz) if, when, suppose(d) that, supposing that, whenever, in case, in the case 
that, unless, on condition that, providing that, provide(d) that, as long as, 


else if 
Dann then, please, if so, you can, you have to, could you, would you 
Andernfalls else, if not, otherwise, elseways, alternatively, instead, either, rather, 
oppositely 


Bedingung Konditionalsatz Dann-Gliedsatz 


Bedingung Konditionalsatz Dann-Gliedsatz Andernfalls-Gliedsatz 
Dann-Gliedsatz Dann-Schlüsselwort VP | VP 


Dann-Gliedsatz 


= 
= 

Konditionalsatz — Wenn-Schlüsselwort NP VP 
= 
— Dann-Schliisselwort NP VP | NP VP 
= 


Andernfalls-Gliedsatz 
Andernfalls-Gliedsatz — Andernfalls-Schlüsselwort NP VP 


Andernfalls-Schliisselwort VP 


Abbildung 7.8: Kontextfreie Grammatik zur Erzeugung der Minimalkonstrukte fiir die Erkennung von verzweigten 
Bedingungen. 


Implementierung des Agenten zur Erkennung von bedingten Verzweigungen 


Als Grundlage fiir die Erkennung von verzweigten Bedingungen verwendet der Agent nur die 
Ergebnisse der Vorverarbeitungsstufe zur seichten Sprachverarbeitung, genauer gesagt die Wortart- 


und Chunk-Etiketten (siehe |Abschnitt 6.2). Hierzu werden aus dem Pro ,-Graph alle Knoten 


vom Typ Token extrahiert, welche die ursprüngliche Äußerung, angereichert um die in der 
Vorverarbeitung erzeugten Informationen, darstellen. Optional können die Ergebnisse des Agenten 
zur Korreferenzanalyse von Nominalphrasen genutzt werden, um die Analyse der Bezugsrahmen 
zu verbessern (siehe [Abschnitt 7.5). Der Ansatz verwendet anschließend Schlüsselwörter und 
spezialisierte Grammatiken zur Extraktion der verzweigten Bedingungen. Die Produktionsregeln der 
Grammatiken sind von den zuvor diskutierten linguistischen Charakteristiken von Bedingungen in 
natürlichsprachlichen Äußerungen abgeleitet. Der Agent verarbeitet die Äußerungen in zwei Phasen. 
Zunächst werden sogenannte Minimalstrukturen mithilfe von Schlüsselwörtern und einfachen, 
robusten Grammatiken extrahiert (siehe Tabelle 7.16|und [Abbildung 7.8). 


Falls mithilfe der Grammatiken keine Minimalstrukturen um das Schlüsselwort gebildet werden 
können, wird das Schlüsselwort verworfen. Das Ergebnis dieses ersten Schrittes sind Kandidaten- 
mengen für Konditionalsätze sowie Dann- und Andernfalls-Gliedsätze. Die einzelnen Strukturen 
sind jedoch bisher nicht miteinander verbunden. Außerdem können mit diesem Vorgehen die meisten 
Dann-Gliedsätze nicht ermittelt werden, da diese häufig nicht mit einem Schlüsselwort eingeleitet 


221 


7 Agenten für Sprachverständnis 


Konditionalsatz — Wenn-Schlüsselwort NBS 
NBS — NPB VPB | NPB VPB Conj NPB VPB 
NPB — NP CC NPB | NP PP NPB | NP 
VPB — VP CC VPB | VP PP NPB| VP PP VPB | ADVP VPB 


| VP VMD | VP 
CC — Conj | Neg 
VMD — ADJP | ADVP | PRT 


Abbildung 7.9: Ausschnitt der kontextfreien Grammatik zur Erzeugung von Konditionalsätzen. 


werden. Aus diesem Grund werden Dann-Gliedsätze gesondert behandelt. Um fehlende Dann- 
Gliedsätze zu erkennen, werden alle Phrasen zwischen aufeinanderfolgenden Konditionalsätzen und 
Andernfalls-Gliedsätzen betrachtet. Auf diese Phrasen werden die in|Abbildung 7.8 dargestellten 
Produktionsregeln für Dann-Gliedsätze ohne Verwendung von Schlüsselwörtern angewandt. Die so 


erkannten Minimalstrukturen werden zur Kandidatenmenge hinzugefügt. Zuletzt werden die Kandi- 
daten mithilfe der ersten beiden Produktionsregeln zusammengesetzt und es entstehen elementare 
Wenn-Dann(-Ansonsten)-Strukturen. Anschließend wird versucht, den Umfang der Bezugsrahmen 
auszudehnen. Hierzu werden Minimalstrukturen inkrementell mithilfe von komplexeren Gramma- 
tiken (syntaktische Erweiterung) und Korreferenzinformationen (Referenz-basierte Erweiterung) 
erweitert. Für die syntaktische Erweiterung der Minimalstrukturen werden Grammatiken verwende- 


ten, die eine teilweise Zerteilung (engl. partial parse) für die Äußerung erzeugen. |Abbildung 7.9 
zeigt einen Auszug der Grammatik, die verwendet wird, um Konditionalsätze zu extrahieren. 


Die Produktionsregeln der Grammatiken sind von den zuvor diskutierten grammatikalischen 
Charakteristiken von Bedingungen in natürlicher Sprache abgeleitet. Im Fall der Grammatik für 
Konditionalsätze sind die Produktionsregeln anhand folgender Überlegungen entstanden. Zunächst 
gibt es syntaktische Strukturen, die Phrasen miteinander verbinden: Konjunktionen (Conj) und 
Negationen (Neg) bilden homogene Nominalphrasen- und Verbalphrasen-Blöcke (NPB und VPB). 
Verbalphrasen können zudem über Adverbialphrasen (ADVP) und Präpositionalphrasen (PP) 
verbunden werden. Letztere verbinden außerdem Verbal- und Nominalphrasen und erzeugen so 
inhomogene Verbalphrasen-Blöcke. Die Blöcke können zu sogenannten Nominal-Block- und 
Verbal-Block-Strukturen (NBS und VBS) verbunden werden (je nach Reihenfolge der Blöcke). Ein 
Konditionalsatz kann nur mithilfe der ersten Produktionsregel erzeugt werden, die besagt, dass 
ein Konditionalsatz immer aus einem entsprechenden Schlüsselwort (oder -phrase), gefolgt von 
einer Nominal-Block-Struktur, bestehen muss, da ein Konditionalsatz nie mit einer Verbalphrase 
beginnen kann. 


Die Grammatiken zur Erzeugung von Dann- und Andernfalls-Gliedsätzen bestehen aus einer 
größeren Menge an Produktionsregeln; die Definitionen der Blöcke unterscheidet sich zudem 
geringfügig. Falls ein Kandidat für einen Konditionalsatz bzw. Dann- oder Andernfalls-Gliedsatz 
nicht mithilfe der jeweiligen Grammatik erweitert werden kann, wird auf die entsprechende 
Minimalstruktur zurückgegriffen. 
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In diesem Beispiel soll die Zerteilung einer natürlichsprachlichen Äußerung mit den erweiterten 
Grammatiken zur Erkennung von Bedingungen in natürlicher Sprache demonstriert werden. 


Für die Zerteilung des Konditionalsatzes wurde die in|Abbildung 7.9|dargestellte Grammatik 


und für den Dann-Gliedsatz eine entsprechende (hier nicht gezeigte) Grammatik verwendet. 
Natürlichsprachliche Sequenz 
when I leave for lunch do the laundry 


Erzeugte Zerteilung 


Bedingung 


Be u 


Konditionalsatz Dann-Gliedsatz 


an 


Wenn-Schliisselwort 


leave for lunch do the laundry 


Die syntaktische Erweiterung der Bezugsrahmen ist konservativ entworfen. Das bedeutet, die 
erwartete Präzision ist hoch, die Ausbeute hingegen niedrig. Der Hauptgrund hierfür ist, dass 
mithilfe der Grammatiken zwar verkette Gliedsätze erkannt werden können, erstreckt sich eine 
vom Konditionalsatz abhängige Struktur (Dann oder Andernfalls) hingegen über mehrere Sätze 
(bzw. Instruktionen), genügen die Grammatiken nicht mehr. Aus diesem Grund werden die 
Bezugsrahmen zusätzlich mithilfe von Korreferenzinformationen ausgedehnt. Die grundlegende 
Idee ist dabei folgende: Wird eine Entität mehrfach in aufeinanderfolgenden Phrasen erwähnt, kann 
man davon ausgehen, dass diese Phrasen zusammengehören; das bedeutet, sie gehören zur gleichen 
Struktur. Um derartige Fälle zu erkennen, werden die Korreferenz- und Identitätsinformationen des 
Agenten zur Korreferenzanalyse von Nominalphrasen verwendet (siehe Abschnitt 7.5). Aus den 
einzelnen Referenzen werden sogenannten Korreferenzketten gebildet (siehe [Abschnitt 2.3.4.7). 


Das bedeutet, für jede Entität wird eine (zusammenhängende) Reihe von Nennungen gebildet. 
Normalerweise unterscheidet man bei der Bildung von Korreferenzketten zwischen Inter- und 
Intra-Satz-Korreferenzen. Da bei gesprochenen Äußerungen jedoch keine Interpunktion vorhanden 
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ist, wird hier auf diese Unterscheidung verzichtet und alle Referenzen werden gleich behandelt. 
Der Agent fügt alle Phrasen, die Teil einer Korreferenzkette sind, zu derjenigen Struktur (Dann 
oder Andernfalls) hinzu, in der die Entität das erste Mal genannt wird. Die Korreferenzketten 
werden aufgeteilt, sobald sie unterschiedliche Arten von Minimalstrukturen überspannen. So kann 
gewährleistet werden, dass sich unterschiedliche Strukturarten nicht überlagern. 


In diesem Beispiel soll die Referenz-basierte Erweiterung des Bezugsrahmens demonstriert 
werden. 


Natürlichsprachliche Sequenz 
the laundry is done when I leave do the laundry iron it and fold it 


Erkannte Korreferenzkette 


the laundry is done when I leave do the laundry iron it and fold it 


\ Identität J \ (Korref.) J i {Korref. } J 


een) 


Erläuterung 


Für die natürlichsprachliche Äußerung wurden mithilfe der Grammatiken when I leave als 
Konditionalsatz und do the laundry als Dann-Gliedsatz erkannt. Höchstwahrscheinlich ist die 
Äußerung aber so zu verstehen, dass auch iron it und fold it vom Konditionalsatz abhängen. 
Mithilfe der Korreferenzinformation wird für die Entität the laundry folgende Korrefenzkette 
gebildet: 


the laundry — the laundry — it — it. 


Aus dieser Kette kann abgeleitet werden, dass iron it und fold it ebenfalls zur Dann-Struktur 
gehören; der Bezugsrahmen des Konditionalsatzes wird entsprechend erweitert. Die Phrase 
the laundry is done wird nicht hinzugefügt, da sich die entsprechende Referenz (Identität) 
über eine Struktur anderen Typs (Konditionalsatz) erstreckt. 


7.6.2 Nebenläufigkeit und Schleifen in natürlicher Sprache 


Das Vorgehen zur Erkennung von Nebenläufigkeit und Schleifen in natürlicher Sprache kann nicht 
wie die Bedingungserkennung auf linguistische Theorien zurückgeführt werden, da in der Linguistik 
für diese Phänomene keine einheitliche Betrachtungsweise existiert. Dies liegt unter anderem daran, 
dass sowohl Wiederholungen als auch Nebenläufigkeit (von Ereignissen) in natürlicher Sprache sehr 
unterschiedlich ausgedrückt werden können. Insbesondere gibt es (im Allgemeinen) keine typischen 


syntaktischen Strukturen, wie die von Declerck und Reed für Bedingungen beschriebene [DRO1|]. 


Da im Kontext von Prof, das Problem der Erkennung von Nebenläufigkeit und Schleifen in 
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natürlicher Sprache jedoch nicht allgemein gelöst, sondern ausschließlich für die Programmierung 
mit natürlicher Sprache umgesetzt werden soll, kann pragmatisch vorgegangen werden. 


Auch verwandte Arbeiten setzen auf zielsetzungsorientierte Lösungen. Landhäußer und Hug 


verwenden beispielsweise Schlüsselwörter und -phrasen ||LH15]. Sie beschreiben weiterhin, dass 


diese gegebenenfalls Aufschluss über die Art der Kontrollstruktur geben. Ist dies nicht der Fall, so 
muss der Kontext untersucht werden. Die Autoren bestimmen anhand der Anzahl, der Reihenfolge 
und der Ordnung der abhängigen Gliedsätze die Art der Kontrollstruktur. Zusätzlich Kann auch das 
Schlüsselwort an sich weitere Information tragen. Beispielsweise impliziert die Aussage do A twice, 
dass A zweimal durchgeführt werden soll. Dementsprechend weist das Schlüsselwort twice nicht nur 
auf die Verwendung einer Zählschleife hin, sondern auch auf die Anzahl der Iterationen (hier zwei). 


Auch wenn die Arbeit von Landhäußer und Hug eine gute Orientierung liefert, kann der Ansatz 
nicht übernommen werden. Die erforderlichen Analysen verwenden Abhängigkeitsgraphen, die nur 


für geschriebene Sprache erzeugt werden können (siehe|Abschnitt 2.3.4.6). Darüber hinaus scheint 


der Ansatz einige Schlüsselwörter und -phrasen nicht geeignet zu verwenden; außerdem erscheinen 
einige Annahmen hinsichtlich der Satzstruktur von Schleifen- und Nebenläufigkeitsbeschreibungen 
nicht allgemeingültig. 


Die im Folgenden vorgestellten Implementierungen zur Erkennung von Nebenläufigkeit und Schleifen 
in natürlicher Sprache nutzen ebenfalls Schlüsselwörter bzw. -phrasen. Die Schlüsselwörter sind 
jedoch typisiert; die abhängigen Gliedsätze werden je nach Typ anders bestimmt. Um die Struktur 
der verbalisierten Kontrollstrukturen zu analysieren, werden semantische Rollen verwendet (siehe 


Abschnitt 6.4). Auch für Nebenläufigkeit und Schleifen werden zunächst Minimalstrukten erzeugt, 


die anschließend heuristisch erweitert werden. 


7.6.3 Implementierung des Agenten zur Erkennung von 
Nebenläufigkeit 


Der Agent zur Erkennung von Nebenläufigkeit verwendet für die Analyse lediglich die Wörter der 
natürlichsprachlichen Äußerungen und deren semantische Rollen. Damit besteht eine Abhängigkeit 
von den Ergebnissen der Vorverarbeitungsstufe von Prof, zur Erzeugung semantischer Rollen 
(siehe[Abschnitt 6.4) Zur Ausdehnung des Bezugsrahmens einer erkannten Nebenläufigkeit werden 
zusätzlich Korreferenzinformationen verwendet, sofern der entsprechende Agent diese generiert hat 
(siehe Abschnitt 7.5). 


Da wie zuvor erläutert in der Linguistik keine Definition für die Struktur von Gliedsätzen, die 
nebenläufige Ereignisse beschreiben, existiert, wird (verbalisierte) Nebenläufigkeit im Kontext 
von Pro/,, folgendermaßen definiert: Eine in natürlicher Sprache verbalisierte Nebenläufigkeit 
ist eine Struktur, die aus zwei oder mehr Gliedsätzen besteht, welche nebenläufige Ereignisse 
beschreiben (im Folgenden als nebenläufige Gliedsätze bezeichnet). Das programmatische Pendant 
sind Quelltextabschnitte, die parallel von mehreren Fäden (engl. threads) ausgeführt werden können, 
wie beispielsweise das OpenMP-Pragma omp parallel for. Die nebenläufigen Gliedsätze können 
in natürlichsprachlichen Äußerungen anhand bestimmter Schlüsselwörter bzw. -phrasen erkannt 
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Tabelle 7.17: Schlüsselwörter und -phrasen zur Erkennung von Nebenläufigkeit in natürlicher Sprache: Die Schlüsselwörter 
und -phrasen sind nach Typen unterteilt. 


Typ Schlüsselwörter/-phrasen 


Umhüllend at once, simultaneously, coevally, concurrently, synchronistically, during 
Teilend at the same time, while, whilst, meanwhile, in the meantime, while doing so 
Offnend and while, while, and whilst, whilst 


SchlieBend at the same time, in the meantime, while doing so 


Umhiillend | Umhiillend | 
| Teilend | 
| Schließend | 
| Öffnend | 


Abbildung 7.10: Spannen der Schlüsselwort-Typen zur Erkennung von Nebenläufigkeit. 


werden. Die Struktur der nebenläufigen Gliedsätze hängt dabei vom jeweiligen Schlüsselwort ab; 
folgende Typen werden unterschieden: 


e Umhüllend: Die nebenläufigen Gliedsätze treten in der Äußerung entweder vor oder nach 
dem Schlüsselwort auf, wobei die zweite Variante die üblichere ist. 


e Teilend: Das Schlüsselwort tritt in der natürlichsprachlichen Äußerung zwischen den neben- 
läufigen Gliedsätzen auf. 


e Offnend: Das Schlüsselwort ist den nebenläufigen Gliedsätzen vorangestellt. 

e Schließend: Das Schlüsselwort ist den nebenläufigen Gliedsätzen nachgestellt. 
Die zugehörigen Schlüsselwörter bzw. -phrasen können [Tabelle 7.17| entnommen werden. Zu 
beachten ist, dass einige davon primäre und sekundäre Typen haben. Die Ordnung der Schlüsselwort- 


Typen entspricht der Reihenfolge der Zeilen der Tabelle; beispielsweise hat while den primären Typ 
Teilend (zweite Zeile) und den sekundären Öffnend (dritte Zeile). 


Der Agent detektiert zunächst die Schlüsselwörter in der natürlichsprachlichen Äußerung. Anschlie- 


Bend werden je nach Schlüsselwort-Typ die nebenläufigen Gliedsätze extrahiert. Abbildung 7.10/zeigt 


den Zusammenhang zwischen Schlüsselwörtern, Schlüsselwort-Typen und zugehörigen Gliedsätzen. 
Beispielsweise werden bei einem Schlüsselwort vom Typ Öffnend die nächsten zwei Gliedsätze 
extrahiert. Die Gliedsätze wiederum sind in diesem Kontext genau ein Ereignis, wobei ein Ereignis 
einer (vom Erkenner von semantischen Rollen) Verb-Struktur entspricht (das heißt, das erkannte 
Verb und die davon abhängigen Rollen, siehe Abschnitt 6.4). Wie schon bei der Erkennung von 
Bedingungen ist auch hier das Vorgehen konservativ. Daher wird pro Gliedsatz auch nur genau ein 
Ereignis extrahiert. Ohne Interpunktion ist es unmöglich, den Bezugsrahmen von Nebenläufigkeit 
genauer zu bestimmen. Beispielsweise kann bei Äußerungen wie „do A do B while you do C and D“ 
nicht entschieden werden, ob nur die Ereignisse B und C gleichzeitig oder A und B gleichzeitig 
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mit C und D stattfinden sollen. Andererseits ist es kein Problem, verschachtelte Nebenläufigkeit zu 
erkennen, solange jedes Paar von nebenläufigen Gliedsätzen über ein Schlüsselwort identifiziert 
werden kann, wie in „do A while you do B in the meantime do C“. Falls mithilfe des primären Typs 
des Schlüsselwortes keine nebenläufigen Gliedsätze ermittelt werden können, wird das Verfahren 
mit dem sekundären Typen wiederholt. Falls auch dann kein entsprechendes Ergebnis erzielt werden 
kann, wird das Schlüsselwort verworfen. Zuletzt wird versucht, den Umfang des Bezugsrahmens 
der ermittelten Nebenläufigkeit zu erweitern. Hierzu wird der Ansatz, der zum selben Zweck 
bei der Erkennung verzweigter Bedingungen eingesetzt wurde, adaptiert. Auch hier werden die 
Korreferenzinformationen des Agenten zur Korreferenzanalyse von Nominalphrasen genutzt, um 
Korreferenzketten zu bilden. Allerdings können nun (anders als bei der Analyse von verbalisierten 
Bedingungen) die Ereignisse (wie zuvor definiert) betrachtet werden; das bedeutet, die Kettenglieder 
werden von Ereignissen gebildet. Alle Ereignisse einer Kette werden dem nebenläufigen Gliedsatz 
zugeordnet in dem das erste Glied der Kette auftritt. Die Intuition hinter diesem Vorgehen ist, dass 
Ereignisse, welche dieselben Entitäten betreffen, stärker in Verbindung stehen als andere. Wie auch 
bei verzweigten Bedingungen gilt: überspannt die Korreferenzkette das Schlüsselwort oder einen 
anderen Gliedsatz, so wird die Kette aufgebrochen. 


Der hier vorgestellte Agent erkennt selbst keine bedingte Nebenläufigkeit, da sich diese genauso wie 
eine verschachtelte Variante verhält: eine Wenn-Dann-Andernfalls-Struktur mit Nebenläufigkeit 
innerhalb der Dann- oder Andernfalls-Struktur. Dementsprechend kann bedingte Nebenläufigkeit 
erkannt werden, indem der hier vorgestellte Agent und der Agent zur Erkennung von verzweigten 
Bedingungen unabhängig voneinander die natürlichsprachliche Äußerung analysieren. 


7.6.4 Implementierung des Agenten zur Erkennung von 
Schleifen 


Der Agent zur Erkennung von Schleifen verwendet wie der Agent zur Erkennung von Nebenläufigkeit 
semantische Rollen zur Interpretation von Ereignissen, die in der natürlichsprachlichen Äußerung 
beschrieben werden. Zusätzlich werden Chunk-Etiketten verwendet. Dementsprechend sind die 
erzielten Ergebnisse abhängig von den Vorverarbeitungsstufen zur seichten Sprachverarbeitung 
und zur Erzeugung semantischer Rollen (siehe Abschnitt 6.2]und [Abschnitt 6.4). Sofern verfügbar, 
verwendet auch dieser Agent zur Ausdehnung der Bezugsrahmen Korreferenzinformationen, die 
vom entsprechenden Agenten bereitgestellt werden (siehe|Abschnitt 7.5). 


In Programmiersprachen finden verschiedene Arten von Schleifen Verwendung. Im Kontext von 
Prof, werden nur solche linguistische Strukturen betrachtet, die auf While-, Do-While- und Zähl- 
schleifen (For-Schleifen) abgebildet werden können. Diese Schleifentypen werden typischerweise 
in gängigen Programmiersprachen verwendet; gleichzeitig existieren für diese natürlichsprachliche 
Pendants. Die Erkennung und Überführung von verbalisierten Schleifenkonstrukten ist nichtsdesto- 
trotz eine Herausforderung, da Ereignisse, die wiederholt stattfinden sollen, in mannigfaltiger Weise 
formuliert werden können. 
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In diesem Beispiel sollen unterschiedliche Formulierungen von verbalisierten Schleifen de- 


monstriert werden. Das Beispiel zeigt zudem, wie relevante Informationen aus den Äußerungen 


extrahiert werden können. 


Natürlichsprachliche Sequenzen 


(1) turn twice 


(2) while the fridge is open take out beverages 


Erlauterung 


Das erste Beispiel kann als Zählschleife interpretiert werden; das Schlüsselwort twice weist 
darauf hin. Zusätzlich kann anhand des Schlüsselwortes erkannt werden, dass die Iterationszahl 
der Schleife zwei beträgt. Dasselbe gilt für Schlüsselphrase wie four times. Das abhängige 
Ereignis im ersten Beispiel ist turn. Das zweite Beispiel beinhaltet neben dem Schlüssel- 
wort while die Bedingung the fridge is open. Dieses Konstrukt entspricht in seinem Aufbau 
einer Konditionalphrase und kann auch in Verbindung mit anderen Schlüsselwörtern bzw. 
-phrasen auftreten, beispielsweise until und as long as. Das Schlüsselwort while ist zudem 
mehrdeutig, da es auch bei der Beschreibung verbalisierter Nebenläufigkeit Verwendung findet 
(siehe [Tabelle 7.17). Zur Auflösung der Mehrdeutigkeit kann der Kontext des Schlüsselwor- 
tes betrachtet werden. Folgt dem Schlüsselwort eine verbalisierte Bedingung, handelt sich 
höchstwahrscheinlich um eine Schleife, andernfalls um Nebenläufigkeit. 


Da wie auch im Falle von Nebenläufigkeit in der Linguistik keine Definition hinsichtlich der 
Struktur von (verbalisierten) Schleifen existiert, werden diese im Kontext von Prof% wie folgt 
definiert: Eine in natürlicher Sprache verbalisierte Schleife ist eine Struktur, die aus einem Gliedsatz, 
der eine Bedingung enthält, und mindestens einem weiteren Gliedsatz, der ein oder mehrere 
Ereignisse enthält, besteht. Der Gliedsatz, der die Bedingung enthält (in der Folge als Bedingungs- 
Gliedsatz bezeichnet), kann wie ein Konditionalsatz aufgebaut sein; er kann aber auch nur aus 
einem Schlüsselwort bzw. einer Schlüsselphrase bestehen. Bedingungs-Gliedsätze enthalten die 
Abbruchbedingung im programmatischen Sinn. Die Gliedsätze, welche die abhängigen Ereignisse 
enthalten (im Folgenden als Schleifenkörper-Gliedsätze bezeichnet), entsprechen den Anweisungen 
innerhalb des Schleifenkörpers im programmatischen Sinn. Wie auch Nebenläufigkeit, können 
verbalisierte Schleifen in natürlicher Sprache anhand von Schlüsselwörtern bzw. -phrasen erkannt 
werden. Die Schlüsselwörter sind dabei Teil des Bedingungs-Gliedsatzes. 


Um verbalisierte Schleifen aus natürlichsprachlichen Äußerungen zu extrahieren, sucht der Agent 
zunächst nach Schlüsselwörtern bzw. -phrasen. Die verwendeten Schlüsselwörter und -phrasen sind 


in Tabelle 7.18aufgeführt. Falls das Schlüsselwort nicht implizit die zugehörige Abbruchbedingung 


enthält, wie bei twice oder four times, wird eine partielle Zerteilung der Äußerung, rund um das 
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Tabelle 7.18: Schlüsselwörter und -phrasen zur Erkennung von Schleifen in natürlicher Sprache: Die Schlüsselwörter und 
-phrasen sind nach Typen unterteilt. [CD] ist ein Stellvertretersymbol für ein beliebiges Wort mit der Wortartetikette CD. 
Typ Schlüsselwörter/-phrasen 
Zählschleife twice, thrice, [CD] times 
Umhiillend while, as long as, until, till 


Öffnend and while, and as long as 
SchlieBend repeat this until, repeat it until, do it until, do this until 


Bedingungs-Gliedsatz 
NBS 


— Schleifen-Schliisselwort NBS 
Bae 
NPB — NP CC NPB | NP PP NPB | NP 
> 
> 


NPB VPB | NPB VPB Conj NPB VPB 


VPB VP VMD | VP VMD CC VPB 
CC 
VMD — ADJP | ADJP CC VMD | PRT | PRT CC VMD 


Conj | Neg 


Abbildung 7.11: Kontextfreie Grammatik zur Erzeugung von Bedingungs-Gliedsatzen verbalisierter Schleifen. 


Schlüsselwort, vorgenommen. Diese partielle Zerteilung ist ähnlich zu der für verbalisierte Bedingun- 
gen durchgeführten, jedoch enthält die hier verwendete Grammatik (siehe/Abbildung 7.11) nur eine 
Teilmenge der Produktionsregeln. Für Konditionalsätze sind Aussagen und Ereignisbeschreibungen 


als Bedingungen gültig, für Bedingungs-Gliedsätze von verbalisierten Schleifen nur Aussagen. Der 
Grund hierfür sind die zuvor beschriebenen Mehrdeutigkeiten von Schlüsselwörtern. 


Nach der Extraktion der Schlüsselwörter und verbalisierten Abbruchbedingungen werden die Struk- 
turen typisiert. Die Typen sind dieselben wie bei der Erkennung der Nebenläufigkeit mit Ausnahme 
des Typs Teilend. Stattdessen wird zusätzlich der Typ Zählschleife eingeführt. Schlüsselwörter 
und -phasen dieses Typs weisen auf eine Zählschleife hin, wobei die Iterationszahl üblicherweise 
Teil des Schlüsselwortes (oder der Schlüsselphrase) ist. Die Typen werden wie zuvor anhand der 


Schlüsselwörter bestimmt; die Zuordnung kann Tabelle 7.18|entnommen werden. Im Gegensatz zur 


Erkennung von nebenläufigen Ereignissen haben alle Schlüsselwörter bzw. -phrasen zur Erkennung 


verbalisierter Schleifen einen eindeutigen Typen. 


Das Vorgehen zur Extraktion der abhängigen Ereignisse in den Schleifenkörper-Gliedsätzen gleicht 
dem Vorgehen bei der Nebenläufigkeit. Auch hier hängt die Auswahl, welche Phrasen (bzw. 
Ereignisse) betrachtet werden, vom Typ der Schleife ab. Abbildung 7.12 veranschaulicht diesen 
Zusammenhang. Ohne Interpunktionen kann wieder mit Sicherheit nur ein abhängiges Ereignis je 


Schleife bestimmt werden. Aus diesem Grund wird wie bei der Erkennung verzweigter Bedingungen 
und Nebenläufigkeit versucht den Umfang der Bezugsrahmen anhand von Korreferenzketten zu 


erweitern (sofern Korreferenzinformationen vorliegen). 
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| Umhüllend — | 
| Zählschleife | 


Schlüsselwort 


| Schließend | 


| Offnend | 


Abbildung 7.12: Spannen der Schliisselwort-Typen zur Erkennung von Schleifen. 


In diesem Beispiel soll gezeigt werden, wie unter Verwendung aller drei Agenten zur Synthese 
von Kontrollstrukturen eine natürlichsprachliche Aussage in Quelltext überführt werden kann. 
Das Beispiel zeigt aus den Analysen der Agenten abgeleiteten Pseudo-Quelltext zur Steuerung 
eines fiktiven Haushaltsroboters. 


Natürlichsprachliche Sequenz 


after dinner go to the laundry room and start the washer wait until the laundry is done while 


you take the laundry from the washer check its condition if the laundry is dry iron the shirts 


and fold them twice otherwise put the laundry into the dryer 


Erzeugtes Skript 


robot.go(where: laundryRoom); 
robot.start(what: washer); 
repeat 
robot. wait(); 
until /aundry.isDone() = true 
do together 
robot.empty(what: washer); 
robot.checkState(what: laundry); 
end do together 
if laundry.isDry() = true then 
robot.iron(shirts); 
for int i=0;i< 2; i++ do 
robot.fold(shirts); 
end for else 
robot.put(what: laundry, where: dryer); 
end if 
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Tabelle 7.19: Datensatz für die Evaluation des Agenten zur Synthese von verzweigten Bedingungen. 


Szenario 4 Szenario 5 Gesamt 


Transkriptionen 19 17 36 
Transkriptionen ohne bedingte Verzweigungen 4 2 6 
Wörter 556 538 1094 
Bedingte Verzweigungen 28 19 47 
Bed. Verzweigungen ohne Andernfalls-Gliedsatz 17 9 26 


Tabelle 7.20: Datensatz für die Evaluation der Agenten zur Synthese von Nebenläufigkeit und Schleifen: Die Menge der 
Instruktionen umfasst alle Bedingungs-Gliedsätze und Ereignisse. 


Szenario 9 Szenario 10 Gesamt 


Transkriptionen 10 10 20 
Transkriptionen ohne Kontrollstrukturen 0 1 1 
Worter 282 287 569 
Kontrollstrukturen 10 9 19 
Instruktionen 20 17 37 


7.6.5 Evaluation der Agenten zur Erkennung von 
Kontrollstrukturen 


Zur Evaluation der Agenten zur Synthese von Kontrollstrukturen aus natiirlichsprachlichen AuBe- 
rungen werden die Transkriptionen zu den Szenarien vier, fünf, neun und zehn (der stationären 
Datensammlung) des Proy,,-Korpus verwendet (siehe Abschnitt 5.5.2). Die Szenarien vier und 


fünf enthalten Äußerungen, in denen viele bedingte Verzweigungen formuliert wurden und werden 
entsprechend für die Evaluation des Agenten zur Erkennung von bedingten Verzweigungen verwen- 
det. Die Transkriptionen zu Szenario neun enthalten hingegen Beschreibungen von nebenläufigen 
Ereignissen und die zu Szenario zehn Beschreibungen zu sich wiederholenden Ereignissen. Für alle 
Transkriptionen wurden händisch Musterlösungen erstellt; das bedeutet, je Äußerung wurden die 
Konditional- bzw. Gliedsätze annotiert. Der Bezugsrahmen der jeweiligen Struktur wurde dabei best- 
möglich anhand der Semantik der Äußerung und der zugehörigen Szenariobeschreibung bestimmt. 


Tabelle 7.19| gibt eine Übersicht über den verwendeten Datensatz zur Evaluation des Agenten zur 


Erkennung von bedingten Verzweigungen. Von den 36 enthaltenen Äußerungen enthalten vier keine 
bedingte Verzweigung, die restlichen enthalten in Summe 47 bedingte Verzweigungen. Das bedeutet, 
im Mittel wurden 1,31 bedingte Verzweigungen pro Äußerung beschrieben. Viele der bedingten 
Verzweigungen besitzen zwar einen Dann- aber keinen Andernfalls-Gliedsatz (26 in Summe). 


Tabelle 7.20]fasst den Datensatz zusammen, der für die Evaluation der Agenten zur Erkennung von 


Nebenläufigkeit und Schleifen verwendet wurde. Beide Datensätze enthalten je zehn Transkrip- 
tionen, wobei eine der Äußerungen aus Szenario zehn keine verbalisierte Schleife enthälf?®| Die 


38 Der Proband beschreibt den Ablauf der Ereignisse sequenziell, ohne dass etwas wiederholt ausgeführt wird. Stattdessen 


werden Ereignisse mehrfach beschrieben, das heißt, die Schleife wurde in der Beschreibung sozusagen ausgerollt. 
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Tabelle 7.21: Ergebnisse der Evalution des Agenten zur Synthese von verzweigten Bedingungen: Werte ohne Klammern 
entsprechen den Ergebnissen ohne Verwendung, Werte in Klammern mit Verwendung des Agenten zur Korreferenzanalyse 
von Nominalphrasen. 


Gliedsatz-Art Präzision Ausbeute Fi 

Konditionalsatz 0,960 (0,960) 0,932 (0,932) 0,946 (0,946) 
Dann-Gliedsatz 0,900 (0,911) 0,795 (0,908) 0,844 (0,910) 
Andernfalls-Gliedsatz 0,944 (0,951) 0,405 (0,464) 0,570 (0,624) 
Gesamt 0,930 (0,934) 0,803 (0,864) 0,862 (0,898) 


restlichen Transkriptionen enthalten je eine Kontrollstruktur. Damit die Agenten die Kontrollstruk- 
turen erzeugen können, wurde aus dem Pro/, ,-VorverarbeitungsflieBband der Agent für seichte 
Sprachverarbeitung ausgeführt. Zur Evaluation der Agenten zur Erkennung von Nebenläufigkeit 
und Schleifen wurde zusätzlich die Vorverarbeitungsstufe zur Erkennung semantischer Rollen 
ausgeführt. Um zusätzlich den Einfluss von Korreferenzinformationen bemessen zu können, wurde 
derselbe Evaluationsaufbau wie für den entsprechenden Agenten hergestellt. Das bedeutet, es 
wurde der Babelfy-Agent zur Disambiguierung von Wortbedeutungen, anschließend mehrfach der 
Kontext-Agent (bis keine Änderung des Kontext-Modells mehr festgestellt wird) und schließlich 
der Agent zur Korreferenzanalyse von Nominalphrasen ausgeführt. Zuletzt wurde der jeweils zu 
evaluierende Agent ausgeführt und die Ergebnisse mit den Musterlösungen verglichen. Um eine 
möglichst genaue Bemessung der Korrektheit der Lösungen zu ermöglichen und auch teilweise 
richtige Extraktionen zu erfassen, findet der Vergleich von Musterlösung und Ausgabe des Agenten 
auf Wortebene statt. Das bedeutet, wurden beispielsweise von einem Gliedsatz nur drei der vier 
erwarteten Wörter richtig zugeordnet, ist die Extraktion trotzdem zu drei Vierteln korrekt; bei einem 
blockweisem Vergleich (z. B. je Gliedsatz) würde ein solches Ergebnis als gänzlich falsch gewertet 


werden. Zur Bemessung der Ergebnisse werden die Metriken Präzision, Ausbeute und Fı-Maß 


verwendet (siehe|Abschnitt 2.4). 


7.6.5.1 Evaluation des Agenten zur Erkennung von bedingte Verzweigungen 


Die Ergebnisse der Evaluation des Agenten zur Erkennung von verzweigten Bedingungen sind in 


Tabelle 7.21|abgebildet. Die nicht geklammerten Werte wurden ohne Verwendung von Korreferenz- 


informationen erzielt, die Werte in Klammern entsprechend mit Korreferenzinformationen. Ohne 
Korreferenzinformationen erreicht das Verfahren einen sehr guten Wert für das Fı-Maß von 0,862. 
Die Ergebnisse zeigen zudem, dass der Ansatz Präzision (0,930) gegenüber Ausbeute bevorzugt 
(0,803). Bei einer eingehenden Analyse der nicht korrekt erkannten verzweigten Bedingungen 
konnten drei Hauptfehlerquellen identifiziert werden. Zunächst erzeugen die Vorverarbeitungsstufen 
teilweise fehlerhafte Ergebnisse. Diese Fehler pflanzen sich fort und führen dazu, dass die zuvor 
beschriebenen Heuristiken nicht mehr greifen. Der häufigste Fehler in diesem Kontext sind feh- 
lerhafte Chunk-Etiketten der Vorverarbeitungsstufe zur seichten Sprachverarbeitung. Fehlerhafte 
Chunk-Etiketten führen unmittelbar dazu, dass die Grammatiken zur Extraktion der Gliedsätze 


keine oder falsche Ergebnisse erzeugen. Das zweite Problem sind grammatikalisch fehlerhafte 
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Tabelle 7.22: Ergebnisse der Evalution der Agenten zur Synthese von Nebenläufigkeiten und Schleifen: Werte ohne 
Klammern entsprechen den Ergebnissen ohne Verwendung, Werte in Klammern denen mit Verwendung des Agenten zur 
Korreferenzanalyse von Nominalphrasen. 

Kontrollstruktur-Art Präzision Ausbeute Fı 

Schleife 1,000 (1,000) 0,514 (0,686) 0,679 (0,814) 

Nebenläufigkeit 0,889 (0,750) 0,800 (0,800) 0,842 (0,774) 


Äußerungen. Einige Probanden lieferten (wahrscheinlich aufgrund unzureichender Englischkennt- 
nisse) teilweise grammatikalisch fehlerhafte Beschreibungen. Dies führt ebenso zu fehlerhaften 
Extraktionen. Immerhin konnten die verwendeten Grammatiken in vielen Fällen die Konditional- 
und abhängigen Gliedsätze zumindest teilweise korrekt extrahieren. Zuletzt verwendeten einige 
Probanden in ihren Beschreibungen zwar grammatikalisch korrekte aber für den Ansatz unerwartete 
Ausdrücke. Diese konnten von den entworfenen Grammatiken nicht oder nur teilweise erfasst 
werden. Ein Beispiel hierfür sind Nominalphrasen, die direkt nach einem Adverb stehen. In den 
meisten Fällen weist ein solches Konstrukt darauf hin, dass mit der Nominalphrase ein neuer 
Gliedsatz beginnt (so auch in den Grammatiken erfasst), wie beispielsweise in der Äußerung 
take the orange juice [now]apvp [it]np is located [...]. In einigen Fällen kann die Nominalphrase 
aber auch dem vorherigen Gliedsatz zugeordnet werden, wie in folgendem Beispiel: otherwise 
bring me [just] apvp [the orange juice]np. Die verwendeten Grammatiken erfassen bisher nur den 
ersten (gebräuchlicheren) Fall. Eine Erweiterung der Grammatiken könnte in diesen Fallen zu einer 
weiteren Verbesserung der Ergebnisse führen. Die Verwendung von Korreferenzinformationen zur 
Erweiterung des Umfangs der Bezugsrahmen verbessert die Ausbeute deutlich (um 7,6% von 0,803 
auf 0,864). Die Ergebnisse je Gliedsatz-Art zeigen, dass vor allem die Dann-Gliedsätze profitieren 
(Verbesserung um 14,2% von 0,795 auf 0,908); aber auch die seltener auftretenden und schwieriger 
zu erkennenden Andernfalls-Gliedsatze zeigen eine Verbesserung; die relative Steigerung tibersteigt 
sogar die der Dann-Gliedsätze (Verbesserung um 14,6% von 0,405 auf 0,464). Der Grund für 
die deutlichen Verbesserungen ist folgender: Viele Transkriptionen enthalten langere Sequenzen 
von abhängigen Gliedsätzen, die aus mehreren Phrasen zusammengesetzt sind. Der syntaktische 
Ansatz zur Extraktion der Gliedsätze kann nur einfache Kombinationen von Phrasen erzeugen. 
Mithilfe der Heuristik, die auf Korreferenzketten basiert, können längere Phrasenketten, die aus 
einer Vielzahl von Aussagen bestehen, extrahiert werden. Auch die Präzision verschlechtert sich 
durch die Hinzunahme der Heuristik nicht, wie zu erwarten gewesen wäre; stattdessen steigt die 
Präzision sogar leicht an (um 0,4% von 0,930 auf 0,934). 


7.6.5.2 Evaluation der Agenten zur Erkennung von Nebenläufigkeit und Schleifen 


Die Ergebnisse der Evaluation der Agenten zur Erkennung von Nebenläufigkeit und Schleifen sind 


in [Tabelle 7.22) aufgeführt. Wieder entsprechen die Werte in Klammern den Ergebnissen unter 


Verwendung von Korreferenzinformationen. Werden keine Korreferenzinformationen verwendet, 
erreicht das Verfahren mit 0,842 einen ähnlich guten Wert wie der Ansatz zur Erkennung von 


verzweigten Bedingungen (0,862). Die Präzision erreicht auch hier höhere Werte als die Ausbeute 
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(0,889 gegenüber 0,800). Die Verwendung von sekundären Typen für Schlüsselwörter bzw. - 
phrasen verbessert die Ausbeute, ohne zusätzliche falsch positive Ergebnisse zu erzeugen. Insgesamt 
extrahiert das Verfahren neun von zehn Nebenläufigkeitsstrukturen; nur drei Ereignisse werden 
zusätzlich extrahiert (falsch positive) und fünf nicht erkannt (falsch negative). Die Verwendung 
von Korreferenzinformationen bringt für die Erkennung von Nebenläufigkeit keine Vorteile. Die 
Ausbeute bleibt gleich, während die Präzision sogar sinkt (um 15,6% von 0,889 auf 0,750). 


Wie in, Tabelle 7.20\nachzuvollziehen, beinhalten die Transkriptionen in Summe zwanzig beschrie- 


bene Ereignisse in zehn Nebenläufigkeitsstrukturen. Das bedeutet, die nebenläufigen Ereignisse 
treten immer paarweise auf und jeder nebenläufige Gliedsatz enthält nur genau ein Ereignis. Da 
die Heuristik zur Erweiterung des Umfangs der Bezugsrahmen anhand von Korreferenzketten 
darauf abzielt, bereits erkannten Gliedsätzen weitere Ereignisse zuzuordnen, ist es unmöglich, 
die Ausbeute für diese Transkriptionen zu verbessern. Stattdessen werden fünf falsch positive 
Ereignisse hinzugefügt und die Präzision sinkt entsprechend. Dieses Ergebnis kann teilweise auf 
den geringen Umfang des Evaluationsdatensatzes zurückgeführt werden. Eine Wiederholung mit 
mehr Äußerungen, die nebenläufige Gliedsätze beinhalten, welche aus mehr als einem Ereignis 
bestehen, könnte zu deutlich anderen Ergebnissen führen. 


Für die Erkennung von Schleifen liegt der Wert für das Fı-Maß nur bei 0,679. Zwar erreicht die 
Präzision den optimalen Wert von 1,000, die Ausbeute ist mit 0,514 jedoch zu niedrig. Nur sechs 
der neun Schleifenstrukturen werden erkannt. Zusätzlich werden elf eigentlich abhängige Ereignisse 
(des Schleifenkörper-Gliedsatzes) nicht zugeordnet. Fünf dieser Fälle können darauf zurückgeführt 
werden, dass der Ansatz nicht nach Ereignissen gesucht hat, da bereits die Schlüsselwortsuche 
fehlgeschlagen ist. Eine eingehende Analyse dieser Fälle hat gezeigt, dass die Transkriptionen 
unerwartete Formulierungen enthielten, wie „for every piece you find in there“ und „if there are still 
any pieces left repeat the step“. Andere Formulierungen sind ungewöhnlich bzw. unüblich und können 
auf die unzureichenden Englischkenntnisse der Probanden zurückgeführt werden. Nichtsdestotrotz 
sollte eine höhere Ausbeute angestrebt werden, beispielsweise durch Erweiterungen der Grammatiken 
oder zusätzliche Schlüsselwörter und -phrasen. Die Verwendung von Korreferenzketten verbessert 
die Ausbeute bereits deutlich (um 33% von 0,514 auf 0,686). Damit steigt auch der Wert für das 
Fı-Maß auf 0,814. Mithilfe der Korreferenzketten können alle Ereignisse dem entsprechenden 
Schleifenkörper-Gliedsatzes zugeordnet werden, sofern überhaupt (mithilfe der Schlüsselwortsuche) 
eine Schleife erkannt wurde. Die Heuristik erzeugt zudem keine falsch positiven Ergebnisse, die 


Präzision bleibt dementsprechend bei 1,000. 


Zusammenfassend lässt sich festhalten, dass alle Agenten zur Synthese von Kontrollstrukturen gute 
Ergebnisse erzielen. Bei optimaler Konfiguration liegen die Werte für das Fı-Maß bei allen Agenten 
über 0,8 (0,814 bis 0,898). Für alle Agenten gilt zudem, dass die Präzision höher ausfällt als die 
Ausbeute. Bei den Agenten zur Erkennung von verzweigten Bedingungen und Schleifen kann die 
Ausbeute mithilfe von Korreferenzinformationen deutlich gesteigert werden; für den Agenten zur 
Erkennung von Nebenläufigkeit bringen Korreferenzinformationen hingegen keine Verbesserung, 


stattdessen sinkt die Präzision. 
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7.7 Erkennung und Analyse von Lehrsequenzen in 
natürlicher Sprache 


Das Programmieren ist ein kreativer Prozess, in dem ein Programmierer einer Maschine schrittweise 
neue Fähigkeiten verleiht. Hierzu kombiniert der Programmierer vorhandene (zuvor programmierte 
oder grundlegende) Funktionalitäten, um neue zu erschaffen. Für die Programmierung in natürlicher 
Sprache gilt es, diesen kreativen Schaffensprozess zu übertragen. Der aktuelle Stand der Technik sieht 
aber hauptsächlich die Nutzung von Sprachschnittstellen zum Aufruf vorgefertigter Funktionalität 
vor. Im besten Fall können die Ergebnisse zweier Anfragen vereinigt werden. Der Nutzer des Sprach- 
gesteuerten Systems hat keine Möglichkeit, die Funktionalität zu erweitern. Neue Funktionen 
werden weiterhin nur durch Entwickler implementiert und über die Schnittstelle zur Verfügung 
gestellt. Zukünftige Sprach-gesteuerte Systeme sollten hingegen den Nutzern ermöglichen, eigene 
Funktionserweiterungen zu definieren — am besten auf die gleiche Art und Weise, wie die Systeme 
genutzt werden, durch natürlichsprachliche Anweisungen. Daher soll Pro, neben der Erzeugung 
skriptartiger Programme auch die Definition neuer Funktionalität ermöglichen. Um neue Funktionen 
aus natürlichsprachlichen Äußerungen ableiten zu können, muss zunächst erkannt werden, wann 
ein Nutzer nicht nur Anweisungen gibt, sondern eine neue Funktion lehren möchte. Wird eine 
solche Lehrsequenz erkannt, muss zudem ihre Semantik analysiert werden. Um zu verstehen, wie 
Laien das Lehren einer neuen Funktionalität verbalisieren, wurden mittels einer Studie zunächst 
Daten gesammelt und analysiert [WST20a} |WST2Ob]. Die textuellen Beschreibungen bilden den in 


Abschnitt 5.5.3|/beschriebenen Online-Datensatz. Aus den Erkenntnissen der Datenanalyse wird ein 


Ansatz zur Erkennung und Analyse von Lehrsequenzen in natürlicher Sprache abgeleitet und ein 


Pro/,-Agent implementiert [Wei+20c} Wei+20d]: Es wird ein hierarchische Klasifikationsaufgabe 


definiert, bei der die erste Stufe zwischen lehrenden und nicht lehrenden Äußerungen unterschieden 
werden soll. In der zweiten Stufe wird die semantische Struktur von lehrenden Äußerungen analysiert. 
Für beide Stufen wurden eine Reihe von Verfahren des maschinellen Lernens implementiert und 
vermessen. Mithilfe der so entstandenen Modelle kann der Pro, -Agent ungesehene Eingaben 
klassifizieren. 


7.7.1. Analyse der Datensammlung 


Die Erkennung und Analyse von Lehrsequenzen in natürlicher Sprache ist bisher nicht Gegenstand 
der Forschung. Ebenso existieren keine linguistischen Theorien zur Form und Struktur, wie dies 
beispielsweise bei Konditionalsätzen der Fall ist, welche die Grundlage zur Erkennung von bedingten 
Verzweigungen in natürlichsprachlichen Äußerungen bilden (siehe | Abschnitt 7.6.1). Daher wurde zu 


Analysezwecken zunächst eine Datensammlung angelegt, die natürlichsprachliche Lehrsequenzen 


enthält. Wie in Abschnitt 5.5.3.1 erläutert, sollten Probanden in vier Szenarien einem humanoiden 


Haushaltsroboter mittels textueller Beschreibungen vier neue Funktionen beibringen: jemanden 
Grüßen, Kaffee zubereiten, Getränke servieren und einen Tisch für zwei eindecken. Der Datensatz 
enthält 3168 Beschreibungen von 870 Probanden. Anhand des Datensatzes werden sprachliche und 
inhaltliche Charakteristika von natürlichsprachlichen Lehrsequenzen untersucht. 
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Anzahl 


300 350 400 450 500 550 600 650 700 750 800 
you have to 767 
the red button 721 
press the red 674 
go to the 627 
the coffee machine 625 
the kitchen table 607 
to the kitchen 587 
the kitchen counter 565 
next to the 560 
you need to 556 
under the dispenser 533 
table for two 499 
in the eye 467 
set the table 460 
and say hello 406 


Abbildung 7.13: Häufigste Trigramme der Online-Datensammlung: Die Abbildung zeigt die absoluten Häufigkeiten der 
fünfzehn häufigsten Trigramme des Datensatzes (Beschreibungen zu den vier Szenarien der Online-Datensammlung, 


siehe |Abschnitt 5.5.3). 


Es zeigt sich, dass Probanden unterschiedliche erzählerische Perspektiven einnehmen. Die meisten 
geben ihre Beschreibungen aus Sicht eines Lehrers ab, der ein Kind unterrichtet. Viele Probanden 
wechseln in die Rolle eines naiven Endnutzers; nur wenige verwendeten technische Beschreibungen, 
wie es ein Software-Entwickler tun würde. Hinsichtlich des Inhalts der Beschreibungen fällt 
auf, dass etwa ein Drittel lediglich Anweisungsfolgen beschreiben und keine neue Funktion 
lehren. Diese Beschreibungen stellen keine Lehrsequenzen dar und können nicht dafür verwendet 
werden, ein System um neue Funktionen zu erweitern | Folglich müssen Lehrsequenzen von 
bloßen Anweisungsfolgen unterschieden werden. Die Beschreibungen des Datensatzes, die lehrende 
Anweisungen enthalten, wurden näher untersucht. Unter anderem wurden häufige Wortfolgen (das 
heißt N-Gramme) untersucht. 


Abbildung 7.13|zeigt die fünfzehn häufigsten Trigramme, die im Datensatz enthalten sind. Die 
Meisten sind Phrasen, die entweder ohne Bedeutung sind oder Anweisungen für bestimmte Szenarien 


enthalten. Zwei der Trigramme leiten jedoch eindeutig unabhängig von einem konkreten Szenario 
Lehrsequenzen ein: you have to und you need to (in der Abbildung grün eingefärbt). Weiterführende 
Betrachtungen fördern häufig verwendete Phrasen zur Formulierung einer Lehrabsicht zutage. Diese 
lauten wie folgt: 


° „in order to [...] you have to |...]“ 
° „[...] means you have to |...]“ 
° „if you want to |...] you need to |...]“ 


° „we are going to learn how to |...]“ 


39 Typische Beispiele führ derartige Anweisungsfolgen ohne Lehraspekt sind das erste und und fünfte Beispiel aus 


Tabelle 5.9\in|Abschnitt 333,2] 


236 


7.7 Erkennung und Analyse von Lehrsequenzen in natürlicher Sprache 


Das bedeutet, es gibt Regularitäten in der Wortwahl und Struktur bei der Formulierung von 
Lehrsequenzen. Hinsichtlich des Aufbaus der Lehrsequenzen zeigen sich weitere Probanden- 
übergreifende Übereinstimmung. Die Beschreibungen enthalten häufig eine kurze Begrüßung, wie 
Hi Armar oder Hey Robot. Anschließend wird die Absicht eine neue Funktion zu lehren geäußert, 
beispielsweise mithilfe einer der zuvor erwähnten Phrasen, und die neue Funktion benannt. In der 
Folge werden zumeist die Teilschritte beschrieben, die der Roboter ausführen soll, wenn die neue 
Funktion aufgerufen wird. Zum Szenario Kaffee zubereiten lautet eine der Beschreibungen zum 
Beispiel wie folgt: „You have to place the cup under the dispenser and press the red button to make 
coffee.“. Die Reihenfolge dieser Bestandteile von Lehrsequenzen variiert jedoch stark. Häufig wird 
beispielsweise der Wunsch eine Funktion zu lehren erst zum Ende der Beschreibung geäußert. In 
anderen Beschreibungen wird die Bestrebung etwas zu lehren mehrfach formuliert, beispielsweise 
zu Beginn und bekräftigend zum Ende der Beschreibung. Die Beschreibung der Teilschritte 
erfolgt in einigen Fällen nicht zusammenhängend, sondern wird unterbrochen, beispielsweise durch 
Grußformeln (oder andere nicht relevante Äußerungen). Das bedeutet, Lehrsequenzen enthalten 
häufig ähnliche Strukturen; diese werden jedoch unterschiedlich zusammengefügt, sind in konkreten 
Beschreibungen mehrfach oder gar nicht enthalten und gegebenenfalls nicht zusammenhängend. 


7.7.2 Generelles Vorgehen 


Aus der Analyse der Datensammlung können zusammenfassend folgende Erkenntnisse gezogen 
werden: Erstens lassen sich die natürlichsprachlichen Äußerungen unterteilen in solche, die eine 
Lehrsequenz enthalten, und andere, die lediglich eine Handlungsanweisung darstellen. Zweitens 
bestehen Lehrsequenzen aus den folgenden semantischen Bestandteilen: 


e Deklaration: Die Deklaration umfasst den explizit geäußerten Wunsch (Intention), eine neue 
Funktion zu lehren, einen Namen für die neue Funktionalität und gegebenenfalls Parameter. 
Im programmatischen Sinn entspricht der deklarative Teil der Methodensignaturdefinition. 
Ein Beispiel für einen solchen deklarativen Teil einer Lehrsequenz ist: „[In order to] Intention 


[set the table] Name [for two] Parameter 


Spezifikation: Die Spezifikation ist die Beschreibung der nötigen Arbeitsschritte (Aktionen), 
um die neue Funktionalität zu erlernen. Im programmatischen Sinn entspricht der spezifizie- 
rende Teil einem Methodenrumpf. Ein Beispiel für einen spezifizierenden Teil ist: „[go to the 


cupboard] Artionı [Open it] Aktion2 [and take out two plates] Aktion3“ 


Sonstiges: Sonstige Aussagen sind alle anderen Arten von Aussagen, die für das Verständnis 
einer Lehrsequenz irrelevant sind. Dies schließt unter anderem Grußformeln, das Lehren von 
Weltwissen oder Feststellungen ein. Beispiele für in diesem Kontext irrelevante Aussagen 
sind: „hey robot“ und „wine is a beverage people like to drink“ 


Die jeweiligen Bestandteile treten an beliegen Stellen und in beliebiger Reihenfolge in den na- 
türlichsprachlichen Äußerungen auf. Außerdem wird die Deklaration häufig in zwei oder mehr 
(nicht aufeinanderfolgende) Aussagen aufgeteilt oder an unterschiedlichen Stellen der Äußerung 
(in anderen Worten) wiederholt. Die Beschreibung der Arbeitsschritte (Spezifikation) ist beliebig 
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Hey in order to prepare coffee you Robot go to the machine place 
have to place a cup under the dis- a cup under the dispenser 
penser then press the red button ... then press the red button ... 


Erste Ebene 

Lehrintention 
Hey in order to prepare coffee you Robot go to the machine place 
have to place a cup under the dis- a cup under the dispenser 
penser then press the red button ... then press the red button ... 


Lehrend Nicht-Lehrend 


Zweite Ebene 


semantische Struktur 


Hey'in|order|to |prepare coffee |you 
pl sad Dek|_... P P Dek Dek you 


have |to|place|a|cuplunder|the|dis- 
Dekl|_.. Spell... pe Spe|| Spe Spe 


penser!ithen|presslithellred|ibutton ... 
Spe Spe Spejl Spejl Spe Spe 


Abbildung 7.14: Schematische Darstellung des zweistufigen, hierarchischen Klassifikationsansatzes: Die abgebildeten 
Beispieläußerungen sind synthetisch, wurden jedoch echten nachempfunden. 


lang und gegebenenfalls nicht zusammenhängend; häufig unterbrechen deklarative Aussagen oder 
Aussagen der Kategorie Sonstiges die Beschreibung. 


Aus den Erkenntnissen der Analyse der Datensammlung wird das Vorgehen des Agenten zur 
Erkennung und Analyse von Lehrsequenzen in gesprochener Sprache abgeleitet. Da durch die Online- 
Datensammlung ein umfangreicher Datensatz gebildet wurde (siehe|Abschnitt 5.5.3), kann als Ansatz 
maschinelles Lernen gewählt werden. Wie zuvor beschrieben, untergliedert sich die Aufgabe in zwei 


Teile: erstens die Unterscheidung von Lehrsequenzen und Handlungsbeschreibungen und zweitens 
die Analyse der semantischen Strukturen von Lehrsequenzen. Es bietet sich daher an, die Aufgabe 
als hierarchische Klassifikation anzusehen] Im Agenten werden folgende Klassifikationsschritte 
verwendet: 


e Erste Ebene: Auf der ersten Ebene wird klassifiziert, ob eine Äußerung die Intention enthält, 
eine neue Funktion zu lehren, oder nicht. Als Etiketten für diese binäre Klassifikation werden 
Lehrend und Nicht-Lehrend verwendet. 


e Zweite Ebene: Auf der zweiten Ebene werden die semantischen Bestandteile von Lehrse- 
quenzen (wie zuvor definiert) klassifiziert. Betrachtet werden ausschließlich Äußerungen, die 
auf der ersten Ebene als Lehrend klassifiziert wurden. Die verwendeten Etiketten für diese 
ternäre Klassifikation sind Deklaration, Spezifikation und Sonstiges. 


40 Neben der inhärenten logischen Teilung der Aufgabe in zwei aufeinanderfolgende Klassifikationsaufgaben, haben 


Forscher wie Cohen et al. nachgewiesen, dass hierarchische Klassifikationsansätze monolithischen bei ähnlich 


gearteten Aufgaben überlegen sind|[CRMO7]. 
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Abbildung 7.14 zeigt schematisch die zweistufige Klassifikation. Um die Klassifikationsschritte in 


dieser Weise durchführen zu können, muss der Datensatz zunächst etikettiert werden. Die Annotation 
der Etiketten wurde gemeinsam vom Autor der Dissertation und einer Master-Absolventin des 
Lehrstuhls durchgeführt. Zunächst wurden die binären Etiketten der ersten Klassifikationsebene je 
Äußerung annotiert. Hierbei wurde ein strikter Ansatz verfolgt; nur Äußerungen, die eindeutig als 
Lehrsequenz zu erkennen sind, erhielten das Etikett Lehrend. Allerdings wurden auch Äußerungen 
zugelassen, bei denen die Lehrintention nur implizit formuliert wird. Ein Beispiel hierfür ist die 
Äußerung „to make coffee“ in der nur das Wort to darauf hinweist, dass hier eine Funktion (make 
coffee) gelehrt werden soll. Die Annotation der Etiketten der zweiten Klassifikationsebene erfolgt 
wortweise. Hierzu wurde zunächst versucht, alle deklarativen Teile der Lehrsequenz zu identifizieren. 
Anschließend wurden die spezifizierenden Teile annotiert; alle übrigen Wörter erhielten das 
Etikett Sonstiges. Bei der Annotation der Etiketten wurde darauf geachtet Wörter eher als relevant 
(Deklaration und Spezifikation) denn als irrelevant (Sonstiges) zu bewerten. Während der zweiten 
Annotationsphase konnten einige falsch positive Etiketten der ersten Ebene identifiziert werden; 
immer dann, wenn nicht mindestens ein Wort das Etikett Deklaration erhält, kann es sich nicht um 


eine Lehrsequenz handeln. Tabelle 7.23|gibt eine Übersicht über die Summe und Verteilung der 


angebrachten Etiketten. Die Etiketten beider Mengen sind ungleich verteilt; dies Kann gegebenenfalls 
die Güte der gelernten Modelle beeinflussen. Einseitig verteilte Etikettenmengen führen häufig dazu, 
dass die Modelle während des Trainings auf die dominante Klasse überangepasst (engl. over-fitting) 
werden. Diese Problematik betrifft insbesondere die zweite Klassifikationsebene, bei der die Klasse 
Spezifikation mit einem Anteil von 76% der Etiketten die anderen Klassen deutlich dominiert. Ein 
weiterer Faktor, der beim Einsatz von Techniken aus dem Bereich des maschinellen Lernens beachtet 
werden muss, ist die Länge der Eingabe. Die Komplexität der meisten Verfahren steigt proportional 
zur (maximal zugelassenen) Eingabelänge. Dies gilt insbesondere für neuronale Netze, bei denen die 
Eingabelänge die Anzahl der Neuronen der Eingabeschicht bestimmt. Da die Anzahl der Neuronen 
der Eingabeschicht bei neuronalen Netzen zum Zeitpunkt der Konstruktion festgelegt wird, muss 
die maximale Eingabelänge vorab bestimmt werden. Eine Möglichkeit ist, die Eingabelänge so 


zu definieren, dass sie der Länge der längsten natürlichsprachlichen Äußerung des Datensatzes 


entspricht; wie Tabelle 7.24 zeigt, würde dies 312 entsprechen. Da aber nur wenige Datenpunkte 


derart lang sind, empfiehlt es sich stattdessen die oberen Quantile der Verteilung zu betrachten. Wie 
Tabelle 7.24\entnommen werden kann, stellt das 99,5%-Quantil einen guten Kompromiss zwischen 
Allgemeingültigkeit (Anzahl der Eingaben, die vollständig verarbeitet werden) und Ökonomie (Länge 


der Eingabe) des Ansatzes dar. Die Wahl für den Pro, ,,-Agenten zur Erkennung und Analyse 
von Lehrsequenzen in natürlicher Sprache fällt daher auf eine Eingabelänge von 135 Wörtern. Mit 
dieser Wahl können 99,5% der Eingaben vollständig verarbeitet werden (die übrigen werden nach 


135 Wörtern abgeschnitten). Aus dem Datensatz müssen anschließend Trainingsinstanzen generiert 


werden; laut Mihalcea erfordert dies drei aufeinanderfolgende Schritte [Mih07]: 


1. Sammlung und Vorverarbeitung eines Datensatzes 
2. Extraktion der Trainingsinstanzen 


3. Vorverarbeitung der Trainingsinstanzen 
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Tabelle 7.23: Absolute und relative Häufigkeiten (in Klammern) der Etiketten, die zur Klassifikation für die Erkennung 
und Analyse von Lehrsequenzen in natürlicher Sprache verwendet wurden. 


binär ternär 
Lehrend Nicht-Lehrend X Deklaration Spezifikation Sonstiges 3 
1998 (0,63) 1170 (0,37) 3168 15559 (0,21) 57156 (0,76) 2219 (0,03) 74934 


Tabelle 7.24: Datensatzstatistiken zu Wortverteilung der Online-Datensammlung: Neben der minimalen und maximalen 
Anzahl verwendeter Wörter, dem arithmetischen Mittel (ø) sowie der Standardabweichung (ø), sind auch die oberen 
Quantile der Verteilung angegeben. 
Quantile 
Min. Max. ø o 99,0% 99,5% 99,9% 
1.0 312 35.43 22.48 | 117 135 232 


Auch wenn der Datensatz bereits vorhanden ist, müssen die einzelnen Datenpunkte vorverarbeitet 
werden (erster Schritt), um diese optimal für Verfahren zum maschinellen Lernen vorzubereiten. 
Folgende Anpassungen werden vorgenommen: 


e Umwandlung in Kleinbuchstaben, z. B. Hello zu hello 

e Auflösung von Kontraktionen, z. B. don’t zu do not 

e Umwandlung von Ordnungszahlen, z. B. 1% zu first 

e Entfernung von Aufzählungszeichen, Interpunktion und Disfluenzen 


e Korrektur von typographischen (nicht aber von grammatikalischen) Fehlern, z. B. thng zu 


thing 


Um die Trainingsinstanzen zu extrahieren (zweiter Schritt), können einfach alle etikettierten Instanzen 
des Datensatzes (wie zuvor beschrieben) verwendet werden. Eine weitere Vorverarbeitung (dritter 
Schritt) ist nur für die Trainingsinstanzen der zweiten Klassifikationsebene notwendig. Zunächst 
werden alle Wörter lemmatisiert und ein Datensatz mit und einer ohne Lemmatisierung erstellt. 
Zusätzlich wird je ein Datensatz mit und einer ohne Stoppwörter erstellt (siehe [Abschnitt 2.3.5). 


Zuletzt müssen die Instanzen in eine numerische Repräsentation überführt werden. Hierzu werden 
auf Ausgabeseite die Etiketten als l-aus-n-Vektor (engl. one-hot vector) dargestellt. Für die 
natürlichsprachlichen Wörter auf der Eingabeseite werden zwei Repräsentationen implementiert. 


Zum einen werden Bag-of-Words-Vektoren erzeugt (siehe Abschnitt 2.3.16). Zum anderen werden 
300-dimensionale Worteinbettungen nach dem fastText-Verfahren generiert [Jou+17]; Zusätzlich 
wird das von Facebook Research vortrainierte fastText-Modell verwendet [Boj+17} Mik+18]*' 
Das Modell umfasst zwei Millionen 300-dimensionale Worteinbettungen und wurde mithilfe eines 


* Verwendet wurde das Modell craw1-300d-2M.vec: https: //fasttext.cc/docs/en/english-vectors. 


zuletzt besucht am 24.02.2021. 
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Common-Crawl-Datensatz erzeugt] Der Datensatz muss anschließend in Teilmengen aufgeteilt 
werden. Ein größerer Teil wird für gewöhnlich zum Training des Modells verwendet; ein kleinerer 
wird zurückgehalten und zum Testen verwendet. Üblicherweise teilt man einen Datensatz in einem 
Verhältnis von achtzig zu zwanzig in eine Trainings- und eine Testmenge. Der gesamte Datensatz 
wird hierfür randomisiert den jeweiligen Mengen zugeteilt. Da viele Verfahren des maschinellen 
Lernens neben der Trainings- eine zusätzliche Validierungsphase verwenden, in der Hyperparameter 
angepasst werden (siehe|Abschnitt 2.2.2), wird die Trainingsmenge erneut randomisiert im Verhältnis 
achtzig zu zwanzig geteilt. Diese Art der Aufteilung, die auch hier Anwendung findet, wird im 


Folgenden als zufällige Aufteilung bezeichnet. 


Leider bildet die zufällige Aufteilung die Realität nur schlecht ab. Im tatsächlichen Einsatz wird 
ein Modell immer auf historischen Daten gelernt und für neue, ungesehene und gegebenenfalls 
unerwartete angewandt. Um diese Situation besser nachzustellen, wurde eine zweite Aufteilung 


umgesetzt. Wie zuvor und in Abschnitt 5.5.3/beschrieben, besteht der Datensatz aus Äußerungen zu 


vier unterschiedlichen Szenarien. Für die zweite Art der Aufteilung des Datensatzes werden die 
Äußerungen eines Szenarios als Testmenge bestimmt und die übrigen für das Training bzw. die 
Validierung verwendet. Wie zuvor werden die Trainigs- und die Validerungsmengen im Verhältnis 
achtzig zu zwanzig aufgeteilt. Im Folgenden wird diese Art der Aufteilung als Szenario-basierte 
Aufteilung bezeichnet. Der Vorteil der Szenario-basierten Aufteilung besteht darin, dass besser 
bemessen werden kann, wie die gelernten Modelle auf zuvor ungesehene Eingaben reagieren, die 
sich konzeptionell von denen der Trainingsmenge unterscheiden. Zwar enthalten die natürlichsprach- 
lichen Beschreibungen je Szenario viele Überschneidungen hinsichtlich der geäußerten Aktionen, 
Ereignissen und behandelten Objekten, zwischen den Szenarien unterscheiden sie sich aber deutlich. 
Dadurch kann mit dieser Art der Aufteilung bemessen werden, wie gut ein Klassifikator generalisiert 
und in der Lage ist, die generelle Struktur einer Lehrsequenz zu verstehen, anstatt nur bestimmte 
(gegebenenfalls Domänen-abhängige) Phrasen auswendig zu lernen. 


Mit den so vorbereiteten Daten können Verfahren, die maschinelles Lernen verwenden, eingelernt 
und getestet werden. Als Vergleichsgrundlage für beide Klassifikationsebenen wurde der sogenannte 
Keine-Regel-Klassifikator (engl. zero rule, kurz ZeroR) verwendet. Dieser weist jeder Instanz die 
dominante Klasse der Trainingsmenge zu. So kann überprüft werden, ob die trainierten Modelle 
besser sind als eine naive Lösung. Gerade bei ungleichmäßig verteilten Klassen (wie es auch 
für beide Klassifikationsebenen der Fall ist) neigen viele Verfahren dazu, sich ähnlich wie der 
ZeroR-Klassifikator zu verhalten und das Modell zugunsten der dominanten Klasse überanzupassen. 
Dementsprechend ist der ZeroR-Klassifikator in diesen Fällen eine gute Vergleichsgrundlage. In 
den beiden nachfolgenden Abschnitten werden die Implementierungen der Klassifikationsebenen 
beschrieben. Die Ergebnisse der jeweiligen Verfahren auf den Testmengen wird zur Bemessung 
der Qualität genutzt. Daher werden die Ergebnisse direkt zusammen mit der Beschreibung der 
jeweiligen Klassifikationsebene anstatt in einem separaten Abschnitt zur Evaluation diskutiert. 


#2 Common Crawl ist eine gemeinnützige Organisation, die mithilfe von Web-Crawling-Werkzeugen Texte aus dem 


Internet sammelt, zu unbearbeiteten Korpora zusammenführt und diese der Öffentlichkeit kostenlos zur Verfügung 
stellt: https: //commoncrawl . org/, zuletzt besucht am 24.02.2021. 
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7.7.3 Unterscheidung von Lehrsequenzen und 
Handlungsbeschreibungen 


Die erste Klassifikationsaufgabe ist eine sogenannte Sequenz-zu-Einzel-Etiketten-Aufgabe (engl. 
sequence-to-single-label task); das bedeutet, einer Eingabesequenz — hier die Wörter der Äußerung 
— wird in ihrer Gesamtheit ein Etikett zu gewiesen — hier entweder Lehrend oder Nicht-Lehrend. Die 
Vorstudie hat gezeigt, dass Lehrsequenzen sehr unterschiedlich formuliert werden. Oft kann die 
Intention der Probanden, eine neue Funktion zu lehren, nur anhand einzelner Wörter festgemacht 
werden, wie in do A and B to prepare coffee. Die Klassifikationsaufgabe ist dadurch alles andere als 
unkompliziert und die Literatur kann keine Empfehlungen für ein bestimmtes Verfahren liefern, da 
eine vergleichbare Aufgabe nicht identifiziert werden konnte. Aus diesem Grund wurden eine Reihe 
von klassischen und modernen Verfahren (basierend auf neuronalen Netzen) implementiert, um 
bestmöglich einschätzen zu können, welches Verfahren sich für die gestellte Aufgabe eignet. Für 
die neuronalen Netze wurden zudem unterschiedliche Konfigurationen getestet; das bedeutet, es 
wurden zusätzliche Schichten hinzugefügt und Hyperparmeter systematisch variiert. 


Folgende klassische Verfahren wurden implementiert: Entscheidungsbaum (engl. decision tree), 
(zufällige) unkorrelierte Entscheidungsbäume (engl. random forest), Stützvektormethode (engl. 
support vector maschine), Naive-Bayes und logistische Regression. Als Eingabe-Merkmale für die 
klassischen Verfahren wurden Bag-of-Words-Vektoren, sowie Tri- und Tetragramme verwendet (um 
den Wortkontext zu modellieren). Die Verfahren wurden anschließend auf den lemmatisierten und 
nicht lemmatisierten Datensätzen trainiert, validiert und getestet. Allerdings war die Genauigkeit 
aller Verfahren auf den lemmatisierten Datensätzen höher. Dasselbe gilt für Stoppwörter; alle 


Verfahren erzielten bessere Ergebnisse, wenn Stoppwörter aus den Äußerungen entfernt wurden. 


Daher werden in Tabelle 7.25\nur die Ergebnisse für den lemmatisierten Datensatz ohne Stoppworter 


gezeigt. Für alle Verfahren wird die Genauigkeit für die zufällige Aufteilung des Datensatzes 
und die Szenario-basierte Aufteilung bemessen. Dabei wird jeweils die Genauigkeit auf der 
Validierungs- und der Testmenge angegeben | Als Vergleichsgrundlage wird wie zuvor beschrieben 
der ZeroR-Klassifikator verwendet. 


Die Werte für den ZeroR-Klassifikator sind für beide Aufteilungen ähnlich. Das spricht dafür, 
dass sich die Verteilung der beiden Klassen sich zwischen den Szenarien kaum unterscheidet. Die 
Ergebnisse der Verfahren unterscheiden sich jedoch deutlich je nach Aufteilung des Datensatzes. 
Auf den zufällig aufgeteilten Daten sind die Genauigkeiten auf der Testmenge bei allen Verfahren in 
derselben Größenordnung wie die Genauigkeiten auf den Validierungsmengen. Das beste Ergebnis 
wird dabei vom Klassifikator erzielt, der logistische Regression zur Problemmodellierung verwendet; 
eine Genauigkeit von 94,7% auf der Testmenge ist ein überraschend gutes Ergebnis für ein einfaches 
Lernverfahren. Die Ergebnisse für die Szenario-basierte Aufteilung sind weniger positiv. Die 
Klassifikationsqualität aller Verfahren nimmt deutlich ab, drei von fünf Verfahren fallen sogar unter 


®# Fiir die Bewertung der Verfahren ist die Genauigkeit auf der Testmenge ausschlaggebend. Die Genauigkeit auf der 


Validierungsmenge ist nichtsdestotrotz von Interesse, falls diese bereits zum Trainingszeitpunkt zur Verfügung steht. 
Das bedeutet, die Genauigkeit auf der Validierungsmenge kann genutzt werden, um die Genauigkeit des jeweiligen 
Verfahrens auf der Testmenge abzuschätzen. Betrachtet man also beide Genauigkeiten gemeinsam, kann bemessen 
werden, wie gut sich die Genauigkeit auf der Validierungsmenge für das jeweilige Verfahren als Schätzer eignet. 
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Tabelle 7.25: Erzielte Genauigkeiten der klassischen Verfahren des maschinellen Lernens: Unterschieden wird nach 
zufälliger und Szenario-basierter Aufteilung des Datensatzes sowie nach Validierungs- und Testmenge. 


Zufällig Szenario 
Verfahren Val. Test |Val. Test 
Entscheidungsbaum 0,893 0,903 |0,861 0,719 
Zufällige Entscheidungsbäume | 0,917 0,909 |0,893 0,374 
Stützvektormethode 0,848 0,861 0,870 0,426 
Naive-Bayes 0,771 0,801 [0,765 0,300 
Logistische Regression 0,927 0,947 |0,891 0,719 
Vergleichsgrundlage (ZeroR) |—— 0,573 |—— 0,547 


die Vergleichsgrundlage. Der Naive-Bayes-Klassifikator etikettiert beispielsweise nur noch 30% der 
Instanzen richtig. Lediglich die Ergebnisse der Klassifikatoren, die einen Entscheidungsbaum bzw. 
logistische Regression verwenden, sind mit einer Genauigkeit von 71,9% zufriedenstellend. Die 
eigentliche Problematik wird aber am Beispiel des Klassifikators, der randomisierte Entscheidungs- 
bäume verwendet, offenbar. Der Klassifikator liefert solide Ergebnisse bei zufälliger Aufteilung des 
Datensatzes und liefert sogar das beste Ergebnis auf der Validierungsmenge bei Szenario-basierter 
Aufteilung (89,3% Genauigkeit). Auf der Testmenge fällt die Genauigkeit allerdings auf 37,4%. 
Eine mögliche Erklärung hierfür ist eine mögliche Überanpassung des gelernten Modells auf 
bestimmte Wörter der Szenarien. Bei zufälliger Aufteilung der Daten sieht der Klassifikator zum 
Trainingszeitpunkt ausreichend Beispiele aus allen Szenarien, um die Wörter für das jeweilige 
Szenario auswendig zu lernen. Wird der Datensatz hingegen Szenario-basiert aufgeteilt, sieht der 
Klassifikator nur Beispiele aus den ersten drei Szenarien; die Überanpassung findet nur in Bezug auf 
die Wörter dieser Szenarien statt. Infolgedessen kann ein gutes Ergebnis auf der Validierungsmenge 
erzielt werden, deren Instanzen ebenfalls aus den ersten drei Szenarien stammen. Bei Anwendung 
auf die zuvor ungesehenen Formulierungen des Testszenarios versagt der Klassifikator. Diese 
Ergebnisse zeigen deutlich, dass klassische Verfahren des maschinellen Lernens für die Aufgabe 
unzureichend sind. Sie vereinfachen das Klassifikationsproblem zu stark und sind nicht in der Lage, 
allgemeingültige Modelle zu erzeugen. 


Seitens der Verfahren, die neuronale Netze verwenden, wurden folgende Arten von Netzen 
verwendet: (vorwärts gerichtete) künstliche neuronale Netze (engl. artificial neural network, kurz 
ANN), faltende neuronale Netze (engl. convolutional neural network, kurz CNN) und rekurrente 
neuronale Netze (engl. recurrent neural network, kurz RNN). Außerdem wurden unterschiedliche 
Architekturen rekurrenter Netze implementiert. Zum einen solche, die gesteuerte rekurrente 
Einheiten (engl. gated recurrent unit, kurz GRU) verwenden und zum anderen solche, die ein 
sogenanntes langes Kurzzeitgedächtnis (engl. long short-term memory, kurz LSTM) darstellen 
(siehe [Abschnitt 2.2.2). Beide Architekturen wurden zudem jeweils als uni- und bidirektionale 
Variante implementiert. Außerdem wurden zusätzliche Schichten hinzugefügt, um tiefere Netze 
zu erzeugen und gegebenenfalls bessere Ergebnisse zu erzielen. Tabelle 7.26| gibt eine Übersicht 
über die Typen implementierter neuronaler Netze, den implementierten Architekturen sowie den 
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Tabelle 7.26: Implementierte Arten von neuronalen Netzen sowie verwendete Architekturen und Schichten. 


Art | Architekturen | Zusätzliche Schichten 
Flatten (Flat), 
ANN Global max pooling 1D (Gmax), 
Dense (D), 
Dropout(DO) 
Max pooling 1D (Max), 
CNN Global max pooling 1D (Gmax), 
Dense (D), 
Dropout(DO) 
LSTM Dense (D), 
RNN GRU Dropout (DO) 
Bi-LSTM 
Bi-GRU 


Eingabe-Schicht Einbettungs- Grund- Zusätzliche Ausgabe- 
Schicht Architektur Schichten Schicht 


Abbildung 7.15: Schematische Illustration des Aufbaus der verwendeten neuronalen Netze. 


jeweils verwendeten zusätzlichen Schichten. [Abbildung 7.15\illustriert zudem den schematischen 


Aufbau der neuronalen Netze. Zunächst werden die einzelnen Wörter der Eingabe (kodiert als 


1-aus-n-Vektor) eingelesen und anschließend in ihre jeweilige Repräsentation als Worteinbettung 


überführt. Die Worteinbettungsschicht enthält je nach Konfiguration entweder selbst trainierte 


Gewichte oder die von Facebook Research vortrainierten (siehe 
wird die Grund-Architektur durchlaufen, das heißt, entweder ein 
faltendes (CNN) oder ein rekurrentes Netz (RNN). Anschließend 


Abschnitt 7.7.2). Anschließend 


vorwärts gerichtetes (ANN), ein 
folgen — je nach Konfiguration — 


weitere Schichten, bevor in der Ausgabeschicht die eigentliche Klassifikation vorgenommen und das 


jeweilige Etikett emittiert wird. Für die einstellbaren Hyperparameter wurden alle Kombinationen 


üblicher Werte (der einzelnen Hyperparameter) getestet. Folgende 


Hyperparameter wurden variiert: 


Anzahl der Neuronen je Schicht, Anzahl der (Trainings-)Epochen, Stapel-Größe (engl. batch size), 
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Tabelle 7.27: Verwendete Werte zur Hyperparameter-Belegung der neuronalen Netze. 


Hyperparameter Getestete Werte 
Anzahl Neuronen: 10; 20; 32; 40; 50; 64; 100; 128; 150; 250; 256; 512 
Epochen (binär): 300; 500; 1000 
Epochen (ternär): 50; 100; 300 
Stapel-Größen (binär): 50; 100; 300; 400 
Stapel-Größen (ternär): 32; 64; 100; 256; 300 
Ausfall-Werte: 0,1; 0,2; 0,3 
Lernraten: 0,001; 0,0005 


—— Validierung 
0,44 — Test | 
a 0,35 | 
E 
5 
> 0al | 
0,1 - - 
0,0 


| | | 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 
Epoche 


Abbildung 7.16: Beispielhafte Verlustfunktionen: Dargestellt sind die Verlustfunktionen fiir die Validierungs- und 
die Testmenge eines Bi-LSTM mit 128 Neuronen (Bi-LSTM(128)) in der rekurrenten Schicht und einer zusätzlich 
Verdichtungs-Schicht mit 64 Neuronen (D(64)). 


Ausfall-Wert (engl. dropout value) und Lernratd| Die getesteten Werte der Hyperparameter sind in 
Tabelle 7.27\gelistet. In der Tabelle nicht aufgeführt ist ein weiterer Hyperparameter, der nur bei 
faltenden Netzen relevant ist, der sogenannte Faltungsfaktor (engl. convolution factor). Dieser gibt 


die Dimension der quadratischen Faltungsmatrix an; getestet wurden die Werte 3,5 und 7. 


Das Training der Netze wurde in der Variante mit frühem Abbruch (engl. early stopping) durchgeführt. 
Das bedeutet, das Training kann auch vor dem Erreichen der maximalen Anzahl von Epochen 
unterbrochen werden und zwar dann, wenn die Verlustfunktion der Validierungsmenge (engl. 


validation loss) nicht mehr sinkt. [Abbildung 7.16| zeigt die Verlustfunktionen der Test- und 


Validierungsmenge für ein Netz mit einem langen Kurzzeitgedächtnis, das bidirektional arbeitet 
(Bi-LSTM), und einer zusätzlichen Verdichtungs-Schicht (engl. drop out layer, kurz DO) mit 64 
Neuronen. In diesem Fall sinkt die Verlustfunktion der Validierungsmenge nach fünf Epochen nicht 
mehr; das bedeutet, das Training wird an diesem Punkt abgebrochen und die bis dahin ermittelten 


# In|Abschnitt 2.2.2|befindet sich eine Einführung in die unterschiedlichen Arten von Schichten neuronaler Netze 
sowie eine Erläuterung zu den Hyperparmetern. 
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Gewichte der Neuronen werden verwendet. Dieses Kriterium wurde während des Trainings von 


allen Konfigurationen erfüllt, sodass die in [Tabelle 7.27| geführten maximalen Epochenzahlen nie 


erreicht wurden ®| Wie auch bei den klassischen Verfahren werden die besten Ergebnisse auf dem 
lemmatisierten Datensatz unter Ausschluss der Stoppwörter erzielt. Auch bei der Stapel-Größe hat 
sich während des Trainings 100 als bester Wert herausgestellt. 


In |Tabelle 7.28 und in [Tabelle 7.29| sind die erzielten Genauigkeiten der neuronalen Netze 


mit ebendiesen Randbedingungen aufgeführt; die erste zeigt die Ergebnisse für die zufällige 
Aufteilung des Datensatzes und die zweite für die Szenario-basierte Aufteilung. Für alle weiteren 
Hyperparameter wurden alle möglichen Konfigurationen getestet. In den Tabellen sind jedoch nur 
die Konfigurationen je Netz-Art bzw. -Architektur aufgeführt, die auf der Validierungsmenge die 


besten Genauigkeiten erzielten] Die Konfigurationen können folgendermaßen gelesen werden. Für 
die vorletzte gezeigte Konfiguration, RNN1.5.2, wurde beispielsweise als Architektur ein langes 
Kurzzeitgedächtnis verwendet, das zusätzlich bidirektional arbeitet (Bi-LSTM). Die rekurrente 
Schicht verfügt über 128 Neuronen. Darüber hinaus verfügt das Netz über folgende zusätzliche 
Schichten: eine Verdichtungs-Schicht mit 100 Neuronen, eine Ausfall-Schicht mit einem Ausfall- 
Wert von 0,3 und eine weitere Verdichtungs-Schicht mit 50 Neuronen. In den Tabellen werden die 
Ergebnisse nach Validierungs- und Trainingsmenge sowie nach der Art der verwendeten fastText- 
Worteinbettungen unterschieden: selbst trainiert oder vortrainiert. Als Vergleichsgrundlage wird das 
beste klassische Verfahren (logistische Regression) angegeben. 


Auf dem zufällig aufgeteilten Datensatz (siehe /Tabelle 7.28) erreichen die meisten Netze sehr 
gute Genauigkeiten. Lediglich die Konfigurationen RNN1 ı.„ und RNN; 3, fallen deutlich ab und 


erzielen weit schlechtere Ergebnisse als der Klassifikator, der auf logistischer Regression basiert. 
Offensichtlich sind uni-direktionale rekurrente Netze (sowohl GRU als auch LSTM) ungeeignet für 
die vorliegende Aufgabe. Ihre bidirektionalen Pendants erzielen hingegen sehr hohe Genauigkeiten. 
Die meisten Konfigurationen erzielen unter Verwendung vortrainierter Worteinbettungen die besten 


Ergebnisse] Dieses Resultat ist insofern positiv, als eine Anpassung der Worteinbettungen auf 
die Domäne keine Vorteile bringt; im Umkehrschluss wird so auch keine Überanpassung auf 
die Domäne erzeugt. Vergleicht man die Ergebnisse der abgebildeten Konfigurationen mit dem 
besten klassischen Verfahren, zeigt sich, dass lediglich faltende und bidirektionale, rekurrente 
Netze bessere Ergebnisse erzielen können (sofern die Hyperparameter richtig gewählt werden). 
Andererseits liegt die Genauigkeit des faltenden neuronalen Netzes CNN; >.ı auf der Testmenge mit 
97,2% 2,5 Prozentpunkte über dem Ergebnis des Vergleichsverfahrens. Zusammenfassend lassen 
die Ergebnisse auf dem zufällige aufgeteilten Datensatz den Schluss zu, dass neuronale Netze sehr 
gute Ergebnisse für die vorliegende Aufgabe erzielen können, jedoch sorgfältig konfiguriert werden 


müssen. 


#5 Das bedeutet, die Anzahl der trainierten Epochen variiert je Konfiguration. Allerdings konvergiert die Verlustfunktion 


in den meisten Fällen, bevor die zehnte Epoche erreicht wird. 

Da die Genauigkeit auf der Validierungsmenge für gewöhnlich als Schätzer für die Performanz des Netzes verwendet 
wird, ist dies ein übliches Vorgehen. 

Das insgesamt beste Ergebnis (auf dem Testdatensatz) wird mit 97,2% von der Konfiguration CNN] .o.ı zwar unter 
Verwendung der selbst trainierten Worteinbettungen erzielt; die beste Konfiguration, die vortrainierte Einbettungen 
verwendet, CNN1.2.0, liegt jedoch lediglich 0,1 Prozentpunkte dahinter. 
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Tabelle 7.28: Erzielte Genauigkeiten verschiedener Netzkonfigurationen auf dem zufällig aufgeteilten Datensatz 
für die erste Klassifikationsebene: Dargestellt sind jeweils ein Kurzname, die Netzkonfiguration und die erzielten 
Genauigkeiten auf den Validierungs- und Testmengen - jeweils unter Verwendung von selbst trainierten und vortrainierten 
Worteinbettungen. 


Selbst Train. | Vortrainiert 
Name Konfiguration Val. Test |Val. Test 
ANN]„ ı.o Flat, D(10) 0,907 0,911|0,874 0,887 
ANN;, ı.ı Flat, D(100) 0,916 0,914 0,846 0,867 
ANN1.2.0 Gmax, D(10) 0,876 0,887 0,872 0,902 
ANN]1 2.1 Gmax, D(100) 0,899 0,896 0,879 0,896 
CNN, 1.0 C(128; 3), Gmax, D(10) 0,947 0,966 | 0,954 0,963 
CNN, ı.ı C(128; 5), Gmax, D(10) 0,947 0,971 |0,930 0,965 
CNN, ı2 C(128; 7), Gmax, D(10) 0,952 0,966 0,943 0,962 
CNN; 2.0 C(128; 3), Max(2), C(64; 3), Gmax, D(10) 0,952 0,959 0,952 0,971 
CNN; >. C(128; 5), Max(2), C(64; 5), Gmax, D(10) 0,949 0,972 | 0,952 0,966 
CNNi.2.2 C(128; 5), Max(2), C(128; 5), Gmax, D(10) 0,952 0,964 0,954 0,966 
CNN; 2.3 C(128; 5), Max(5), C(128; 5), Gmax, D(10) 0,956 0,958 0,952 0,959 
RNN]; ı.o GRU(128) 0,560 0,625 0,562 0,625 
RNN]; ı.ı GRU(128), D(100) 0,562 0,625 0,562 0,625 
RNN;1.2.0 Bi-GRU(32), DO(0,2), D(64), DO(0,2) 0,947 0,944 0,952 0,959 
RNN1 3.0 LSTM(64) 0,566 0,631 0,568 0,638 
RNN1 .3.ı LSTM(128) 0,570 0,625 0,654 0,738 
RNNj 3.2 LSTM(128), D(100) 0,562 0,625 0,562 0,625 
RNN1.4.0 Bi-LSTM(64), DO(0,2), D(64), DO(0,2) 0,947 0,955 10,949 0,955 
RNN; 4.1 Bi-LSTM(64), DO(0,3), D(200), D(100) 0,941 0,947 | 0,947 0,949 
RNN1.5.0 Bi-LSTM(128), D(64) 0,951 0,955 0,956 0,959 
RNNj 5.1 Bi-LSTM(128), D(64), D(32) 0,945 0,962 0,947 0,955 
RNNı 52 Bi-LSTM(128), D(100), DO(0,3), D(50) 0,936 0,937 0,945 0,941 
RNNj 6.0 Bi-LSTM(256), D(128) 0,952 0,944 0,945 0,952 
Basis Vergleichsgrundlage (Logistische Regression) 0,927 0,947 


Die Betrachtung der Ergebnisse auf dem nach Szenarien aufgeteilten Datensatz (siehe Tabelle 7.29) 
sind für die Bewertung der Konfigurationen eher relevant, da dieser Aufbau, wie zuvor diskutiert, 


den Einsatz der Modelle realistischer nachbildet. Zunächst offenbaren die Ergebnisse, dass die 
Genauigkeiten aller Konfigurationen sinken. Dieses Resultat war zu erwarten, da sich das verwen- 
dete Vokabular in den Szenarien unterscheidet. Verfahren, die sich stärker an einzelnen Begriffen 
orientieren, sind von diesem Umstand besonders betroffen. Netze mit einfachem Aufbau neigen dazu 
lediglich bestimmte Formulierungen auswendig zu lernen; sie sind somit auf die Trainingsinstanzen 
überangepasst. Dementsprechend sinken die Genauigkeiten der einfachen, vorwärts gerichteten 
neuronalen Netze (ANN) besonders deutlich (bis zu minus 36 Prozentpunkte auf 54,2% für ANN] 2.0 
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Tabelle 7.29: Erzielte Genauigkeiten verschiedener Netzkonfigurationen auf dem Szenario-basiert aufgeteilten Datensatz 
für die erste Klassifikationsebene: Dargestellt sind jeweils ein Kurzname, die Netzkonfiguration und die erzielten 
Genauigkeiten auf den Validierungs- und Testmengen - jeweils unter Verwendung von selbst trainierten und vortrainierten 
Worteinbettungen. 


Selbst Train. | Vortrainiert 
Name Konfiguration Val. Test |Val. Test 
ANN]„ ı.o Flat, D(10) 0,918 0,759 | 0,897 0,722 
ANN;31.1.1 Flat, D(100) 0,905 0,781 10,874 0,715 
ANN1.2.0 Gmax, D(10) 0,907 0,766 |0,905 0,542 
ANN31.2.1 Gmax, D(100) 0,893 0,668 |0,918 0,674 
CNN, 1.0 C(128; 3), Gmax, D(10) 0,962 0,765 |0,966 0,854 
CNN, .ı.ı C(128; 5), Gmax, D(10) 0,973 0,743 | 0,973 0,776 
CNN, ı2 C(128; 7), Gmax, D(10) 0,973 0,775 10,970 0,897 
CNN; 2.0 C(128; 3), Max(2), C(64; 3), GMax, D(10) 0,968 0,855 |0,962 0,874 
CNN; 2. C(128; 5), Max(2), C(64; 5), Gmax, D(10) 0,969 0,850 10,975 0,859 
CNN; .22 C(128; 5), Max(2), C(128; 5), Gmax, D(10) 0,973 0,862 | 0,977 0,862 
CNN; 2.3 C(128; 5), Max(5), C(128; 5), Gmax, D(10) 0,962 0,901 10,973 0,801 
RNN1.1.0 GRU(128) 0,477 0,299 | 0,519 0,702 
RNN]; ı.ı GRU(128), D(100) 0,519 0,702 10,519 0,702 
RNNj.2.0 Bi-GRU(32), DO(0,2), D(64), DO(0,2) 0,954 0,911 10,958 0,932 
RNN1 3.0 LSTM(64) 0,519 0,702 0,519 0,702 
RNN1 .3.ı LSTM(128) 0,519 0,702 0,519 0,702 
RNN1 3.2 LSTM(128), D(100) 0,519 0,702 10,519 0,702 
RNN;1.4.0 Bi-LSTM(64), DO(0,2), D(64), DO(0,2) 0,956 0,896 10,962 0,916 
RNN; 4.1 Bi-LSTM(64), DO(0,3), D(200), D(100) 0,947 0,884 10,956 0,911 
RNN1 5.0 Bi-LSTM(128), D(64) 0,960 0,927 |0,962 0,919 
RNNj 5.ı Bi-LSTM(128), D(64), D(32) 0,950 0,919 [0,966 0,898 
RNN\ı 5.2 Bi-LSTM(128), D(100), DO(0,3), D(50) 0,937 0,922 | 0,954 0,917 
RNN1.6.0 Bi-LSTM(256), D(128) 0,954 0,843 | 0,962 0,912 
Basis Vergleichsgrundlage (Logistische Regression) 0,891 0,719 


bei Betrachtung der Genauigkeit auf der Testmenge mit vortrainierten Worteinbettungen). Das neu- 
ronale Netz, welches auf dem zufällig aufgeteilten Datensatz das beste Ergebnis erzielte, CNN] > 1, 
erfährt ebenso eine starke Verschlechterung. Trotz sehr guter Ergebnisse auf der Validierungsmen- 
ge, sinkt die Genauigkeit auf der Testmenge (je nach verwendeten Worteinbettungen) auf 85% 
bzw. 85,9%. Einzig die bidirektionalen rekurrenten Netze erzielen weiterhin gute Ergebnisse; die 
Konfiguration RNNj.2.9 erreicht eine Genauigkeit von 93,2%. Damit liegt das Ergebnis einerseits 
vier Prozentpunkte unter dem besten Ergebnis auf dem zufällige aufgeteilten Datensatz (CNN1 > 1: 
97,2%), andererseits aber auch deutlich über dem Ergebnis des besten klassischen Verfahrens 
(Logistische Regression: 71,9%). Wie zu erwarten, wird diese hohe Genauigkeit unter Verwendung 
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der vortrainierten Worteinbettungen erzielt, da die Testmenge zuvor ungesehenes Vokabular enthält, 
welches dementsprechend bei Verwendung der selbst trainierten Einbettungen auf den Null-Vektor 


abgebildet wird (siehe|Abschnitt 2.3.16). Dieser Intuition widersprechen die Ergebnisse der Konfi- 


gurationen RNN1.5.x; diese erzielen ihre besten Ergebnisse mit den selbst trainierten Einbettungen. 
Eine mögliche Erklärung für dieses Resultat könnte sein, dass es diesen Netzen tatsächlich gelingt, 
ihre Klassifikation vorrangig von Formulierungen abhängig zu machen, die tatsächlich auf eine 
Lehrsequenz hinweisen, wie means you have to oder ähnliche. Überprüfen lässt sich diese Vermutung 
jedoch nicht, da die von neuronalen Netzen getroffenen Klassifikationsentscheidungen generell 
kaum interpretiert werden können. Zudem fällt auf, dass die Test-Genauigkeit nur noch schlecht 
anhand der auf der Validierungsmenge erzielten Genauigkeit geschätzt werden kann. Das Netz mit 
der besten Genauigkeit auf der Testmenge (RNNj.2.0) erzielt auf der Validerungsmenge nur ein 
mittelmäßiges Ergebnis, mit Knapp zwei Prozentpunkten Abstand zum besten Netz. Andersherum 
ist das Testergebnis des Netzes mit der besten Validierungs-Genauigkeit (CNN >.>) schlechter als 
das der meisten anderen; die Genauigkeit liegt dabei sogar sieben Prozentpunkte hinter dem besten 
Ergebnis. 


Als weitere Variante eines Verfahrens, welches neuronale Netze verwendet, wurde das vortrai- 
nierte Sprachmodell BERT (kurz für Bidirectional Encoder Representations from Transformers) 


verwendet |[Dev+19]. BERT ist ein tiefes neuronales Netz, das strukturelle Zusammenhänge in 


natürlicher Sprache erlernt hat (siehe[Abschnitt 2.3.17). Dieses vortrainierte Wissen kann genutzt 


werden, um spezielle Klassifikationsaufgaben zu lösen, hier die Unterscheidung von lehrenden 
und nicht-lehrenden Äußerungen. Bei der Verwendung des BERT-Sprachmodells ist es nicht nötig, 
Worteinbettungen zu verwenden; stattdessen wird eine eigene Eingabekonvertierung verwendet, 
die direkt im Modell geschieht. Es genügt also, eine einfache Eingabeschicht zu verwenden. Als 
Ausgabeschicht wurde eine flache binäre Schicht (engl. flat layer) gewählt. Für Pro/ wurde das 
Modell BERTpasg genutzt (siehe Abschnitt 2.3.17). Der schematische Aufbau des auf BERT basie- 
renden Klassifikators ist in|Abbildung 7.17|dargestellt. Hinsichtlich der Trainingsepochen (neben der 
Modellgröße der einzige zu wählende Hyperparameter), wurden die Werte 5, 10 und 300 getestet. 


Auch für BERT wurde die Trainingsvariante mit frühem Abbruch verwendet; allerdings wurde 
das Abbruchkriterium (wie zuvor beschrieben) von keiner Konfiguration vor dem Erreichen der 


maximalen Epochenzahl erfüllt. Tabelle 7.30|zeigt die Ergebnisse der drei BERT-Konfigurationen. 


Wieder wird nach Aufteilung des Datensatzes und Validierungs- und Testmenge unterschieden. 
Als Vergleichsgrundlagen dienen neben dem ZeroR-Klassifikator und dem besten klassischen 
Verfahren (Logistische Regression) die beiden jeweils besten neuronalen Netze unter Verwendung 
der vortrainierten Worteinbettungen auf dem zufällig aufgeteilten und auf dem Szenario-basiert 
aufgeteilten Datensatz, CNN1.2.0 und RNN;1 2.0. 


Wie der Tabelle entnommen werden kann, übertreffen die BERT-Konfigurationen sowohl das 
beste klassische Verfahren als auch die beiden besten neuronalen Netze. Wenig überraschend 
erzielt das über 300 Epochen am längsten trainierte Modell BERT3 die besten Genauigkeiten. Es 
erreicht eine Genauigkeit von 98,2% auf dem zufällig aufgeteilten Datensatz; dies entspricht einer 
Verbesserung um 1,1 Prozentpunkte gegenüber dem besten Vergleichsmodell (CNN; 2.0: 97.1%). 
Auf dem Szenario-basiert aufgeteilten Datensatz beträgt die Verbesserung sogar 4,5 Prozentpunkte 
(gegenüber RNN1.2.0: 93,2%). Die hier erzielte Genauigkeit von 97,7% stellt ein herausragendes 
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lehrend 


to prepare coffee si thanks 


Abbildung 7.17: Schematische Darstellung der auf BERT basierenden Netzkonfigurationen für die erste Klassifikations- 
ebene: Das Netz setzt sich aus dem vortrainierten Sprachmodell BERT gase, das aus 12 Transformer-Schichten besteht, 
und einer flachen Schicht zur Erzeugung der Ausgabe (binäre Klassifikation) zusammen. 


Ergebnis dar. Offensichtlich gelingt es dem BERT-Sprachmodell unabhängig von den konkreten 
Formulierungen in den Szenarien, die generelle Struktur von Lehrsequenzen zu erlernen. Neben dem 
Modell BERT; stellt auch das Modell BERT» eine gute Wahl dar; die Qualität der Klassifikation ist 
ähnlich gut und der Trainingsaufwand um ein vielfaches geringer. Da das Training allerdings im 
besten Fall nur ein einziges Mal durchgeführt werden muss, fällt dieses Argument gegebenenfalls 
nicht ins Gewicht. 


Zusammenfassend lässt sich festhalten, dass für die erste Klassifikationsebene, in der Lehrsequenzen 
von einfachen Befehlssequenzen unterschieden werden sollen (binäre Klassifikation, Klassen Lehrend 
und Nicht-Lehrend), klassische Verfahren des maschinellen Lernens unbrauchbar sind. Neuronale 
Netze erreichen hingegen sehr gute Ergebnisse; insbesondere rekurrente Netze erzielen auch bei 
einer Szenario-basierten Aufteilung des Datensatzes sehr hohe Genauigkeiten. Die beste Alternative 
stellt jedoch die Verwendung des BERT-Sprachmodells dar. Unabhängig von der Aufteilung des 
Datensatzes erreicht es die besten Ergebnisse. Das über 300 Epochen trainierte Modell BERT3 
erzielt auf der Szenario-basierten Aufteilung eine hervorragende Genauigkeit von 97,7%. Aufgrund 
des hohen Speicherbedarfs des Modells, der insbesondere aufgrund der Nebenläufigkeit der Agenten 
ein Problem darstellt, wird für den Prof, ,-Agenten als Standardkonfiguration das beste Modell 
eines neuronalen Netzes gewählt: RNN1 2.0. 
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Tabelle 7.30: Erzielte Genauigkeiten der auf BERT basierenden Netzkonfigurationen für die erste Klassifikationsebene: 
Unterschieden wird nach zufälliger und Szenario-basierter Aufteilung des Datensatzes sowie nach Validierungs- und 
Testmenge. 


Zufällig Szenario 
Name (und Konfiguration) Val. Test |Val. Test 
BERT}. (5 Epochen) 0,973 0,981]0,991 0,969 
BERT} > (10 Epochen) 0,976 0,982 0,992 0,973 
BERT; 3 (300 Epochen) 0,962 0,982 0,992 0,977 
Logistische Regression 0,927 0,947 0,891 0,719 
CNN 1.2.9 (Vortrainierte Worteinbettungen) | 0,952 0,971 10,962 0,874 
RNN; 2.0 (Vortrainierte Worteinbettungen) |0,952 0,959 |0,958 0,932 
Vergleichsgrundlage (ZeroR) — 0,573 |—— 0,547 


7.7.4 Analyse der semantischen Struktur von Lehrsequenzen 


Auf der zweiten Klassifikationsebene sollen die semantischen Strukturen von Lehrsequenzen 
bestimmt werden. Daher werden nur Instanzen betrachtet, die im ersten Klassifikationsschritt mit 
dem Etikett Lehrend versehen wurden. Jedes Wort einer Lehrsequenz soll nun einer der drei zuvor 
definierten Klassen Deklaration, Spezifikation oder Sonstiges zugeordnet werden. Es handelt sich 
somit um eine typische Sequenz-zu-Sequenz-Aufgabe (engl. sequence-to-sequence task). Für diese 
Art von Aufgabe sind neuronale Netze besonders geeignet. Aus diesem Grund werden für die 
zweite Klassifikationsebene nur neuronale Netze verwendet**| Es wurden dieselben Netztypen, 
Architekturen und zusätzlichen Schichten verwendet wie für die erste Klassifikationsebene (siehe 


Tabelle 7.26). Auch die getesteten Hyperparameter-Belegungen unterscheiden sich nur bei der 
Epochen-Anzahl und den Stapel-Größen (vergleiche [Tabelle 7.27). Für letztere wurden die Werte 
32, 64, 100, 256 und 300 verwendet. Die maximale Anzahl an Epochen wurde entweder mit 
50, 100 oder 300 konfiguriert. Wieder wurde beim Training die Option früher Abbruch gewählt, 
um gegebenenfalls nicht die volle Anzahl an Epochen trainieren zu müssen. Wie auch schon 


bei der Erkennung von Lehrsequenzen konvergierten alle getesteten Konfigurationen, bevor die 
maximale Epochenzahl erreicht wurde. Ebenso wurden erneut auf einer Datensatz-Variante von 
allen Konfigurationen die besten Ergebnisse erzielt, dieses Mal die nicht lemmatisierte Variante 
unter Ausschluss von Stoppwörtern. Dasselbe gilt für die Stapel-Größe; hier stellte sich 32 als beste 
Wahl heraus. Alle anderen Hyperparameter wurden in allen Kombinationen getestet. 


In [Tabelle 7.31|sind die Ergebnisse der besten Konfigurationen auf dem zufällig aufgeteilten 


Datensatz aufgeführt, in Tabelle 7.32) entsprechend die Ergebnisse auf der Szenario-basierten 


Aufteilung. Beide Tabellen unterscheiden zudem wieder zwischen erreichten Genauigkeiten auf der 
Validierungs- und auf der Testmenge sowie zwischen der Verwendung von selbst trainierten und 
vortrainierten Worteinbettungen. Als Vergleichsgrundlage dient der ZeroR-Klassifikator. Der ZeroR- 
Klassifikator erreicht vergleichsweise hohe Genauigkeiten, 75,9% auf dem zufällig aufgeteilten und 


48 Vortests auf Teilen des Datensatzes haben zudem die Unbrauchbarkeit der klassischen Lernverfahren belegt. 
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Tabelle 7.31: Erzielte Genauigkeiten verschiedener Netzkonfigurationen auf dem zufällig aufgeteilten Datensatz 
für die zweite Klassifikationsebene: Dargestellt sind jeweils ein Kurzname, die Netzkonfiguration und die erzielten 
Genauigkeiten auf den Validierungs- und Testmengen - jeweils unter Verwendung von selbst trainierten und vortrainierten 
Worteinbettungen. 


Selbst Train. | Vortrainiert 
Name Konfiguration Val. Test |Val. Test 
ANN3 1.0 - 0,851 0,855 10,851 0,856 
ANN3.20 D(10) 0,848 0,857 0,852 0,849 
ANNg2.2.1 D(100) 0,853 0,856 10,853 0,848 
RNN3 ı.o LSTM(64) 0,977 0,976 10,979 0,978 
RNN3 ı.ı LSTM(128) 0,974 0,976 | 0,978 0,977 
RNNo22.0 LSTM(128), DO(0,2) 0,976 0,977 | 0,977 0,977 
RNN2.21 LSTM(128), DO(0,4) 0,976 0,977 0,979 0,979 
RNN2.2.2 LSTM(128), D(64) 0,973 0,972 | 0,977 0,976 
RNN3 3.1 Bi-LSTM(128) 0,986 0,983 |0,987 0,985 
RNN2.3.2 Bi-LSTM(128), D(64) 0,980 0,983 |0,985 0,984 
RNN3 3.3 Bi-LSTM(128), D(100), DO(0,3), D(50) 0,982 0,982 0,982 0,985 
RNN3 3.4 Bi-LSTM(128), DO(0,2) 0,985 0,984 0,988 0,988 
RNN3 3.5 Bi-LSTM(128), DO(0,4) 0,985 0,986 10,986 0,986 
RNN3.4.0 Bi-LSTM(256), DO(0,2) 0,986 0,984 0,987 0,985 
RNN3 5.0 Bi-GRU(128) 0,984 0,984 |0,985 0,985 
Basis Vergleichsgrundlage (ZeroR) 0,759 


75,7% auf dem Szenario-basiert aufgeteilten Datensatz. Diese Werte werden jedoch von allen (hier 
aufgeführten) Konfigurationen übertroffen. Selbst das nur aus zwei vorwärts gerichteten Schichten 
bestehende ANN3 >. ı erreicht Genauigkeiten auf den Testmengen zwischen 82,2% und 85,6%. 
Lediglich faltende Netze sind ungeeignet für die vorliegende Aufgabe; keine Konfiguration ist unter 
den besten fünfzehn der hier gezeigten. Besonders gut schneiden jedoch erneut bidirektionale, 
rekurrente, neuronale Netze ab; alle Konfigurationen erreichen Test-Genauigkeiten über 98% auf dem 
zufällig aufgeteilten und über 96% auf dem Szenario-basiert aufgeteilten Datensatz. Insbesondere 
die Konfigurationen RNN2 3.4 und RNN3 3 ı erzielen hervorragende Ergebnisse; während RNN3a 3.4 
auf dem zufällig aufgeteilten Datensatz mit 98,8% Genauigkeit hervorsticht, erzielt RNNo.3.1 auf 
der Szenario-basierten Aufteilung mit 97,6% das beste Ergebnis. Insgesamt sind die Unterschiede 
zwischen den rekurrenten neuronalen Netzen jedoch nur marginal. Zudem fällt positiv auf, dass die 
Validierungsgenauigkeit bei allen Konfigurationen und für beide Datensatzaufteilungen gut geeignet 
ist, um die Testgenauigkeit abzuschätzen. Beide Werte bewegen sich durchgängig in der gleichen 


Größenordnung und die Tendenzen zwischen den Konfigurationen sind übertragbar. 


Auch für die zweite Klassifikationsebene wurden Konfigurationen erstellt, die BERT verwenden. 
Diese entsprechen weitestgehend den für die erste Ebene verwendeten Konfigurationen. Lediglich 
die Ausgabeschicht wird angepasst, da bei der zweiten Klassifikationsebene einzelne Wörter 
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Tabelle 7.32: Erzielte Genauigkeiten verschiedener Netzkonfigurationen auf dem Szenario-basiert aufgeteilten Datensatz 
für die zweite Klassifikationsebene: Dargestellt sind jeweils ein Kurzname, die Netzkonfiguration und die erzielten 
Genauigkeiten auf den Validierungs- und Testmengen - jeweils unter Verwendung von selbst trainierten und vortrainierten 
Worteinbettungen. 


Selbst Train. | Vortrainiert 
Name Konfiguration Val. Test Val. Test 
ANN2.1.0 - 0,850 0,779 | 0,851 0,826 
ANNo2.2,.9 D(10) 0,850 0,825 | 0,851 0,826 
ANNə2.2.1 D(100) 0,851 0,822|0,851 0,827 
RNN3 1.0 LSTM(64) 0,971 0,960 0,975 0,966 
RNN3 ı.ı LSTM(128) 0,973 0,960 | 0,973 0,964 
RNNo22.9 LSTM(128), DO(0,2) 0,970 0,960 0,973 0,966 
RNNo22.1 LSTM(128), DO(0,4) 0,971 0,959 | 0,974 0,967 
RNN3 >. LSTM(128), D(64) 0,970 0,955 0,971 0,963 
RNN3 3.1 Bi-LSTM(128) 0,983 0,960 0,981 0,976 
RNN3.3.2 Bi-LSTM(128), D(64) 0,973 0,960 | 0,979 0,965 
RNN3 3.3 Bi-LSTM(128), D(100), DO(0,3), D(50) 0,978 0,955 0,981 0,968 
RNN3.3.4 Bi-LSTM(128), DO(0,2) 0,982 0,958 0,981 0,975 
RNN3.3.5 Bi-LSTM(128), DO(0,4) 0,980 0,961 0,980 0,973 
RNN3.4.0 Bi-LSTM(256), DO(0,2) 0,982 0,964 0,982 0,975 
RNN3 5.0 Bi-GRU(128) 0,976 0,955 0,982 0,968 
Basis Vergleichsgrundlage (ZeroR) 0,757 


(anstatt ganzer Äußerungen) klassifiziert werden und die Klassifikationsaufgabe (nicht binär, 


sondern) ternär ist. Die Ergebnisse sind in [Tabelle 7.33] aufgeführt. Erneut dienen neben dem 


ZeroR-Klassifikator die jeweils besten Konfigurationen für die zufällige und die Szenario-basierte 
Aufteilung als Vergleichsgrundlage, das bedeutet RNN3> 3.ı und RNN3 3.4. Auch für die zweite 
Klassifikationsebene erzielen die BERT-basierten Konfigurationen sehr gute Testergebnisse, bis 
zu 98,5% Genauigkeit für die zufällige Aufteilung und bis zu 97,3% für die Szenario-basierte 
Aufteilung. Der Vergleich mit den besten neuronalen Netzen zeigt jedoch, dass keine Verbesserung 
erzielt werden kann. Stattdessen liegen die Ergebnisse der BERT-basierten Konfigurationen sogar 
leicht hinter dem jeweils besten neuronalen Netz (je 0,3 Prozentpunkte). 


Zusammenfassend lässt sich für die Klassifikation von semantischen Strukturen in Lehrsequenzen 
festhalten, dass neuronale Netze diese Aufgabe überraschend gut bewältigen. Besonders rekurrente 
neuronale Netze erscheinen geeignet; sie erreichen durchgehen Genauigkeiten von über 96% bis 
nahezu 99%. Die Verwendung des vortrainierten Sprachmodells BERT führt bei dieser Klassifika- 
tionsaufgabe zu keinen Verbesserungen. Für den Prof, ,-Agenten wird RNN2 3.1 ausgewählt, da 
diese Konfiguration auf dem Szenario-basiert aufgeteilten Datensatz die beste Test-Genauigkeit 
erzielt und auch auf dem zufällig aufgeteilten nur knapp hinter der besten Konfiguration liegt. 
RNN3 3.1 hat zudem den Vorteil, dass es unter den besten Netzen das kleinste Modell erzeugt, damit 


Ressourcen spart und schneller klassifiziert als die übrigen. 
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Tabelle 7.33: Erzielte Genauigkeiten der auf BERT basierenden Netzkonfigurationen für die zweite Klassifikationsebene: 
Unterschieden wird nach zufälliger und Szenario-basierter Aufteilung des Datensatzes sowie nach Validierungs- und 
Testmenge. 


Zufällig Szenario 
Name (und Konfiguration) Val. Test | Val. Test 
BERT» (5 Epochen) 0,979 0,982 10,979 0,965 
BERT» > (10 Epochen) 0,983 0,985 | 0,983 0,972 
BERT3.3 (300 Epochen) 0,981 0,983 | 0,985 0,973 


RNN2 3.ı (Vortrainierte Worteinbettungen) |0,987 0,985 0,981 0,976 
RNN2 3.4 (Vortrainierte Worteinbettungen) | 0,988 0,988 0,981 0,975 
Vergleichsgrundlage (ZeroR) —— 0,759|—— 0,757 


7.7.5 Optimierung der ersten Klassifikationsebene 


Die Ergebnisse des besten neuronalen Netzes für die erste Klassifikationsebene (RNN;1.2.0) liegen 
auf dem Test-Datensatz 4,5 Prozentpunkte hinter der besten BERT-basierten Konfiguration. Da 
die BERT-Modelle jedoch sehr viel Speicher benötigen, wird in der Standardkonfiguration von 
Proy/,, trotzdem RNN} 2.0 verwendet. Um Fehler, die durch die Verwendung des schlechteren 
Modells entstehen, zu verringern, wurden zusätzliche Optimierungen entwickelt. Diese nutzen zum 
einen den sogenannten Trennwert der Ausgabeschicht und zum anderen die Ergebnisse der zweiten 
Klassifikationsebene. 


Die Optimierungen der Klassifikationsergebnisse von RNNj.2.9 erfolgen zweistufig. Zunächst wird 
der Trennwert optimiert. Die Ausgabeschicht verwendet (wie bei binären Klassifikationsproblemen 
üblich) als Aktivierungsfunktion die Sigmoidfunktion (siehe [Abschnitt 2.2.2). Diese bildet die 
Aktivierungen der vorherigen Schicht auf den Wertebereich [0; 1] ab. Für die binäre Klassifikation 
werden anschließend alle Ergebnisse im Bereich [0; 0,5] der Klasse Nicht-Lehrend und alle im 
Bereich (0,5; 1] der Klasse Lehrend zugeordnet. Das bedeutet, der Trennwert der beiden Klassen 
liegt bei 0,5. Auch wenn im Trainingsdatensatz die Klasse Lehrend häufiger vertreten ist (siehe|Ab} 
[schnitt 7.7.1), zeigt sich, dass der Klassifikator dazu neigt, die Klasse Nicht-Lehrend zu bevorzugen. 
Daher wird der Trennwert entsprechend verschoben. Hierzu wurden alle Trennwerte im Bereich [0; 


0,5] mit einer Schrittweite von 0,05 getestet. In Abbildung 7.18|sind die Ergebnisse aufgetragen. Als 


Vergleich dient das Testresultat von RNNj.2.9, welches ohne Anpassung erzielt wird. Die Genauigkeit 
verbessert sich kontinuierlich bei Verringerung des Trennwertes, bis bei 0,1 der beste Wert erzielt 
wird. Die Genauigkeit erreicht 94,1%; dies entspricht einer Verbesserung um 0,9 Prozentpunkten 
gegenüber dem Grundmodell. Im ersten Optimierungsschritt wird dementsprechend der Trennwert 
der Ausgabeschicht auf 0,1 (statt 0,5) gesetzt. Abbildung 7.18]legt nahe, dass auch im Bereich [0,1; 
0) falsche Klassifikationsergebnisse korrigiert werden könnten. Daher wird dieser Bereich untersucht 
und zusätzlich als zweiter Indikator für eine Lehrintention (Klasse Lehrend) das Ergebnis der zweiten 
Klassifikationsebene verwendet. Hierzu wird die zweite Ebene auf alle Äußerungen angewandt (und 
nicht wie zuvor beschrieben nur auf Äußerungen, die auf der ersten Ebene der Klasse Lehrend 
zugeordnet wurden). Anschließend wird die Klassenzuordnung derjenigen Äußerungen hinsichtlich 
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Abbildung 7.18: Optimierung der Trennwerte für die erste Klassifikationsebene: Dargestellt sind die Genauigkeiten, die 
unter Verwendung unterschiedlicher (optimierter) Trennwerte auf dem Testdatensatz erreicht werden. 


der ersten Stufe abgeändert, deren numerische Repräsentation einen bestimmten Trennwert m 
unterschreitet und gleichzeitig eine gewisse Anzahl an Wörtern n aufweist, die auf der zweiten 
Stufe der Klasse Deklaration zugewiesen wurden. Die Grundidee hinter dieser Heuristik ist die 
Folgende: Wörter, die das Etikett Deklaration erhalten, beschreiben die Lehrintention; treten in 
einer Äußerung einige solche auf, liegt die Vermutung nahe, dass es sich um eine Lehrsequenz 
handelt (auch wenn die erste Klassifikationsebene keine solche erkannt hat). 


Für den Trennwert m wurden Werte im Bereich [0,001; 0,1] mit einer Schrittweite von 0,001 getestet; 
für die Anzahl der Deklaration-Etiketten n wurde der Bereich [0; 6] untersucht.|Abbildung 7.19]zeigt 
die Ergebnisse. Zum Vergleich wurde das Klassifikationsergebnis des Grundmodells aufgetragen] 
Zwei Konfigurationen erreichen den besten Genauigkeitswert: der grüne Graph (m = 0,008; n = 2), 
und der lila Graph (m = 0.006; n = 5). Beide erreichen eine Genauigkeit von 95,5%; das entspricht 
einer Verbesserung von 2,2 Prozentpunkten gegenüber dem Grundmodell. Mit diesen Optimierungen 
liegt die Genauigkeit nur noch 1,8 Prozentpunkte hinter der besten BERT-Konfiguration. Im Proy% y- 
Agenten kann die Optimierung optional verwendet werden. Als Standardwerte für m und n sind 
0,008 bzw. 2 vorkonfiguriert; beide können jedoch frei gewählt werden. 


® Die Abbildung zeigt die Ergebnisse im Bereich m = [0, 001; 0, 03], da die besten Ergebnisse in diesem Bereich 


erzielt werden. 
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Abbildung 7.19: Kombinierte Optimierung für die erste Klassifikationsebene: Dargestellt sind die Genauigkeiten, die 
unter Verwendung unterschiedlicher Konfigurationen der kombinierten Optimierung der Klassifikation durch RNN1.2.0 
für die erste Klassifikationsebene erzielt werden. Eine Konfiguration besteht aus einem Trennwert m und der unteren 
Schranke beobachteter Deklaration-Etiketten n. 


7.7.6 Implementierung des Agenten zur Erkennung und 
Analyse von Lehrsequenzen in natürlicher Sprache 


Der Pro/,-Agent zur Erkennung und Analyse von Lehrsequenzen in natürlicher Sprache führt 
die zuvor beschriebene hierarchische Klassifikation durch. Hierzu werden die zuvor trainierten 
Modelle in den Agenten geladen. Welche Modelle genutzt werden sollen und ob die zweite 
Klassifikationsebene nur auf Lehrsequenzen oder alle Äußerungen angewendet werden soll, kann 
konfiguriert werden. Dasselbe gilt für die Verwendung von Wort-Lemmata, den Ausschluss von 
Stoppwörtern und die Verwendung der Optimierung des Klassifikationsergebnisses der ersten 
Klassifikationsebene. Der Agent ist wie folgt vorkonfiguriert: Für die erste Klassifikationsebene 
werden Wort-Lemmata verwendet und Stoppwörter ausgeschlossen; als Klassifikationsmodell dient 
RNN; 2.0. Die Optimierung wird standardmäßig verwendet (m = 0,008 und n = 2). Für die zweite 
Klassifikationsebene werden keine Lemmata verwendet, Stoppwörter werden erneut ausgeschlossen. 
Zur Klassifikation werden nur Äußerungen zugelassen, die zuvor als Lehrend klassifiziert wurden 
und es wird das rekurrente Netz RNN3 3.ı (BILSTM(128)) verwendet. 


Damit die Modelle die Klassifikation durchführen können, werden zunächst die natürlichsprachlichen 
Äußerungen aus dem Pro/,-Graphen extrahiert. Hierzu werden alle Knoten des Typs Token 
ausgelesen. Sollen Wort-Lemmata verwendet werden, liest der Agent diese zusätzlich aus den 


Token aus (Attribut lemma). Die Wort-Lemmata werden von der Vorverarbeitungsstufe zur seichten 
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Sprachverarbeitung erzeugt (siehe Abschnitt 6.2). Folglich besteht eine Abhängigkeit von den Ergeb- 
nissen dieser Vorverarbeitungsstufe. Sollen zudem Stoppwörter ausgeschlossen werden, geschieht 


dies mithilfe derselben Wortliste, die auch schon für das Training verwendet wurde. Anschließend 
wird die so vorbereitete Eingabe zunächst an die erste und dann an die zweite Klassifikationsebene 
übergeben. Je nach Konfiguration des Agenten wird die zweite Klassifikationsebene nur ausgeführt, 
wenn es sich gemäß der ersten Klassifikationsebene bei der Äußerung um eine Lehrsequenz 
handelt. Gegebenenfalls wird anschließend die Optimierung der Klassifikationsergebnisse der ersten 
Klassifikationsebene ausgeführt. 


Zuletzt werden die Ergebnisse wie folgt im Graphen hinterlegt. Für das Ergebnis der ersten 
Klassifikationsebene wird ein neuer Knoten vom Typ TeachingSequence erzeugt; im booleschen 
Attribut isTeachingSequence wird hinterlegt, ob es sich bei der Äußerung um eine Lehrsequenz 
handelt oder nicht. Die Ergebnisse der zweiten Klassifikationsebene werden als neues Attribut 


semanticPart in den Knoten vom Typ Token gespeichert. 


7.8 Synthese von Methodendefinitionen und 
Skripten 


In nahezu allen Programmiersprachen ist es möglich, wiederverwendbare bzw. wiederholt auftretende 
Instruktionsfolgen zu definieren, beispielsweise in Form von Subroutinen, Methoden, Funktionen 
oder Prozeduren. Nur mithilfe dieser Konstrukte können Quelltexte effizient erstellt werden. Um 
Programmierung mit natürlicher Sprache zu ermöglichen, müssen Nutzer folglich in die Lage 
versetzt werden, Methoden mithilfe natürlichsprachlicher Beschreibungen zu definieren. Beschreibt 
ein Nutzer beispielsweise einem Heimautomationssystem, welche Aktionen für einen Party-Modus 
nötig sind oder einem Haushaltsroboter wie man den Tisch deckt, so möchte der Nutzer die nötigen 
Befehlsfolgen nicht jedes Mal wiederholen müssen. Stattdessen sollte das System diese erlernen 
und unter einem abrufbaren Namen abspeichern. Aus programmatischer Sicht entspricht der Name 
einer Methodensignatur und die zugehörige Befehlsfolge dem Methodenrumpf. 


In der Forschung findet diese Aufgabe bisher wenig Beachtung. Die meisten intelligenten Syste- 
me, die über eine Sprachschnittstelle verfügen, erlauben es nur einzelne Befehle bzw. einfache 
Befehlskombinationen auszuführen”, Einige Ansätze erlauben die Erzeugung von Skripten, wenige 
ermöglichen es, neue Funktionen zu definieren. Letztere erwarten aber entweder zusätzliche Einga- 
ben (z. B. Zeige- bzw. Berührungsgesten) oder beschränken sich auf eine konkrete Zielanwendung 
(siehe|Abschnitt 3.3). Das Ziel von Prog% ist es jedoch, Zielsystem- und Domänen-unabhängige 
Endnutzer-Programmierung ausschließlich mit natürlicher Sprache zu ermöglichen. Für Prof% 


wurde daher ein neuer Ansatz entwickelt [|Wei+20b], der es erlaubt, aus natürlichsprachlichen 
Lehrsequenzen Methodendefinitionen zu synthetisieren (siehe/Abschnitt 7.7). Da die Methodendefi- 
nitionen als Teil des Pro/,,-Graphen dargestellt werden, sind sie universell für unterschiedliche 


Programmiersprachen, Zielsysteme und Umgebungen einsetzbar. 


5 Dies gilt insbesondere für intelligente Assistenzsysteme (siehe|Abschnitt 3.4). 
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coffee is a beverage people like in procedure makeCoffee() 

locate(what: Cup) 

put(what: Cup, where: CoffeeMachine.Dispenser) 
press(what: CoffeeMachine.RedButton) 


order to make coffee you have to 
eK] 


Synthese von Methoden 


locate the cup place it under the 


dispenser and press the red button 
pe 


end procedure 


Abbildung 7.20: Schematische Darstellung des angestrebten Synthese-Prozesses: Zur Synthese von Methoden werden 
unter anderem die Etiketten verwendet, die von der zweiten Klassifikationsebene des Agenten zur Erkennung und Analyse 
von Lehrsequenzen in natürlicher Sprache erzeugt werden. 


7.8.1 Implementierung des Agenten zur Synthese von 
Methodendefinitionen und Skripten 


Der Ansatz wurde als weiterer Prof; -Agent umgesetzt. der Agent stützt seine Analysen hauptsäch- 
lich auf die Ergebnisse des Agenten zur Erkennung und Analyse von Lehrsequenzen in natürlicher 
Sprache (siehe[Abschnitt 7.7). Dieser unterscheidet bereits Lehrsequenzen von Skripten. Zusätzlich 
wird die Struktur der Lehrsequenzen oberflächlich analysiert und in deklarative, spezifizierende 


und sonstige Abschnitte unterteilt. Der hier beschriebene Agent extrahiert diese Informationen 
aus dem Pro/,,-Graphen und erzeugt aus deklarativen Abschnitten Methodensignaturen und aus 
spezifizierenden Abschnitten die zugehörigen Methodenrümpfe. Handelt es sich bei einer Äußerung 
nicht um eine Lehrsequenz, wird aus den beschriebenen Schritten ein Skript erzeugt. Neben den 
Analyseergebnissen des Agenten zur Erkennung und Analyse von Lehrsequenzen verwendet der 
Agent zur Erzeugung der Methodendefinitionen Wortartmarkierungen, Chunk-Etiketten, Lemmata, 
Synonyme, semantische Rollen und Korreferenzinformationen. Dadurch hängt der Agent zusätz- 
lich von den Vorverarbeitungsstufen zur seichten Sprachverarbeitung (Wortarten, Lemmata und 
Chunk-Etiketten) und zur Erkennung von semantischen Rollen sowie vom Babelfy-Agenten zur 
Disambiguierung von Wortbedeutungen (Grundlage für die Synonyme), dem Agenten zur Modellie- 
rung des sprachlichen Kontexts und dem Agenten zur Korreferenzanalyse von Nominalphrasen ab 
(siehe Abschnitte 6.2|16.4,7.2|[7.4Jund/7.5). 


Nachdem der Agent die benötigten Informationen aus dem Pro, -Graphen extrahiert hat, wird 
der Synthese-Prozess eingeleitet. Hierzu wird zunächst die Struktur der Äußerungen analysiert und 
in ein Modell überführt, in dem sowohl Methodendefinitionen als auch Skripte repräsentiert werden 
können. Anschließend werden zunächst die Methodensignaturen und dann die Methodenrümpfe 
bzw. Skripte synthetisiert. Während der Erzeugung der Rümpfe bzw. der Skripte erfolgt zudem eine 
Abbildung auf Funktionen des Zielsystems (API-Aufrufe), die in der Zielsystemontologie hinterlegt 
sind. Dadurch erzeugt der Agent bereits eine Art Pseudo-Code. In|Abbildung 7.20]ist der angestrebte 
Synthese-Prozess anhand eines Beispiels schematisch dargestellt. Im Folgenden wird dieser genauer 
beschrieben. 


Zunächst werden Äußerungen in ein semantisches Modell überführt; das Modell ist hierarchisch 
aufgebaut und repräsentiert die grundlegende Struktur von Methodendefinitionen. Die Grundbau- 
steine sind jedoch keine Programmkonstrukte, wie Zuweisungen, Vergleiche oder Instruktionen, 
sondern Phrasen der natürlichsprachlichen Äußerung. Das Meta-Modell besagt, dass eine Methode 
immer aus einer Signatur und einem Rumpf besteht. Die Signatur wiederum besteht (in diesem 
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einfachen Modell) aus einem Namen und Parametern; der Rumpf der Methode besteht aus einer 
beliebigen Anzahl von Instruktionen oder Kontrollstrukturen. Kontrollstrukturen können wiederum 
Instruktionen enthalten. Eine Instruktion besteht, wie die Signatur, aus einem Namen und Parametern. 
Namen und Parameter werden im Modell durch Phrasen der Äußerung gebildet. Das bedeutet, 
Äußerungen müssen phrasenweise analysiert und auf Modellbestandteile abgebildet werden, um 
iterativ eine konkrete Modell-Instanz zu generieren. Prinzipiell werden Phrasen, die vom Agenten 
zur Erkennung und Analyse von Lehrsequenzen in natürlicher Sprache als deklarativ erkannt wurden 
(siehe[Abschnitt 7.7), auf den Signatur-Teil des Modells abgebildet. Phrasen, die dem spezifizierenden 
Teil der Äußerung zugeordnet wurden, werden hingegen auf Konstrukte des Rumpfes abgebildet. 


Der Aufbau einer Modell-Instanz erfolgt aufwärts (engl. bottom-up); das bedeutet, das Modell wird 
ausgehend von den einzelnen Wörtern der natürlichsprachlichen Äußerung aufgebaut bis letztlich 
eine Methode (oder ein Skript) entsteht. 


Zunächst wird die Äußerung gemäß der in Abschnitt 7.7 definierten Klassen in semantisch 


zusammenhängende Abschnitte unterteilt. Etwaige Phrasen, die der Klasse Sonstige zugeordnet 
wurden, werden nicht weiter betrachtet. Die weiteren Abschnitte (Deklaration und Spezifikation) 
werden anschließend syntaktisch und semantisch analysiert. Zunächst werden mithilfe semantischer 
Rollen einzelne Aktionen (semantische Rolle V) und zugehörige Argumente extrahiert (semantische 
Rollen A*). Zusätzlich werden Korreferenzen aufgelöst] 


Anschließend wird die Modell-Instanz schrittweise aufgebaut. Hierzu werden zunächst Aktionen 
auf Namen und die übrigen Rollen auf Parameter abgebildet] Namen werden immer durch eine 
natürlichsprachliche Phrase gebildet, Parameter hingegen bestehen aus einer Liste von Phrasen. 
Zusätzlich zu den Phrasen werden jeweils Synonyme und Lemmata im Modell hinterlegt. Je nachdem, 
ob es sich bei der betrachteten Phrase um einen Teil der Deklaration oder der Spezifikation handelt, 
werden der Name und zugehörige Parameter wiederum zu einer Signatur (der neuen Methode) oder 
einer Instruktion (des Methodenrumpfes) zusammengefasst. 


Der Rumpf kann aus beliebig vielen Instruktionen zusammengesetzt werden, die Signatur hingegen 


hat immer einen eindeutigen Namen und einen Satz Parameter” | Sobald mindestens eine Instruktion 
erzeugt werden konnte, wird der Methodenrumpf im Modell erzeugt. Wenn sowohl eine vollständige 
Signatur als auch ein Rumpf existieren, wird im Modell der Methoden-Knoten erzeugt und die 
Modell-Instanz ist vollständig. Handelt es sich bei der Äußerung nicht um eine Lehrsequenz, wird 
lediglich der Rumpf aufgebaut; die Modell-Instanz ist dann auch ohne Signatur und Methode 
vollständig. 


51 
52 


Das bedeutet, im Modell werden alle referenzierenden Ausdriicke durch die jeweiligen Referenten ersetzt. 
Während des Abbildungsprozesses werden Phrasen zusätzlich bereinigt. Unter anderem werden bestimmte Phrasen- 
bestandteile, einige Rollen und Stoppwörter ausgeschlossen. 

Eine Betrachtung etwaiger Kontrollstrukturen innerhalb des Methodenrumpfes ist an dieser Stelle nicht nötig. Die 
von den entsprechenden Agenten erzeugten Graph-Strukturen sind ausreichend (siehe Abschnitt 7.6), um später 


Kontrollstrukturen in den synthetisierten Quelltext zu injizieren (siehe Abschnitt 8.1). 
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Signatur 


Parameter 


A 


Instruktion; || Instruktiong | - - - 
Parameter 


[to make] [coffee]| [you have [to locate] [the cup]... 
Dek Spe 


Abbildung 7.21: Ausschnitt einer Modell-Instanz des semantischen Meta-Modells für Methodendefinitionen in natürlicher 
Sprache: Die zugehörige Äußerung ist ein synthetisches Beispiel. Relevante Phrasen sind geklammert und die Etiketten 
Dek und Spe entsprechen den in|Abschnitt 7.7\definierten Klassen zur Analyse der semantischen Struktur von Äußerungen. 


In diesem Beispiel soll die Struktur und Funktion des semantischen Meta-Modells für 
natürlichsprachliche Methodendefinitionen veranschaulicht werden. Das Beispiel nimmt 
Bezug auf die in Abbildung 7.21|dargestellte beispielhafte Modell-Instanz. 


Natürlichsprachliche Sequenz 


to make coffee you have to locate the cup |...] 


Erläuterung 


Der Ausschnitt der Beispieläußerung wurde bereits in einen deklarativen und einen spezifi- 
zierenden Abschnitt aufgeteilt (siehe Abschnitt 7.7). Davon ausgehend werden zunächst die 
semantischen Rollen ausgelesen, heuristisch bereinigt und in Chunks untergliedert (in der 


Abbildung durch eckige Klammern dargestellt). Aus den Phrasen to make und to locate werden 
anschließend Namensknoten für die Modell-Instanz erzeugt. Analog werden für coffee und the 
cup Parameterknoten angelegt. Der Namens- und Parameterknoten des deklarativen Abschnitts 
bilden im Modell zusammen die Signatur der Methode. Namen und Parameter werden im 


spezifizierenden Teil der Äußerung zu einer Instruktion zusammengesetzt; gegebenenfalls 


folgen weitere Instruktionen (im Beispiel nicht gezeigt). Alle extrahierten Instruktionen bilden 
den Methodenrumpf. Zuletzt wird aus der Signatur und dem Rumpf die gesamte Methode 


zusammengefügt. 
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Synthese von Methodensignaturen 


Aus dem Modell wird anschließend zunächst die Methodensignatur synthetisiert. Der Methodenname 
wird erzeugt, indem alle Wörter, die im Modell-Knoten Name hinterlegt sind, in Binnenmajus- 


kelschreibweise konkateniert werden®*|Aus den Phrasen des Parameter-Knotens werden entweder 
formale Parameter erzeugt oder sie werden dem zuvor erzeugten Namen angehängt (falls die 
Synthese nicht möglich ist). Um formale Parameter zu erzeugen, wird versucht, die jeweiligen 
Phrasen auf ein Individuum der Domänenontologie abzubilden | Wird eine Abbildung gefunden, 
wird zusätzlich geprüft, ob das Konzept zu dem das Individuum gehört, ein gültiger Datentyp der 
API ist. Ist dies der Fall, wird ein formaler Parameter mit dem ermittelten Datentyp angelegt; der 
Name des Parameters wird aus dem Methodennamen und einem Suffix erzeugt. Das Suffix kann im 
zugehörigen Ontologie-Konzept hinterlegt werden. Wurde kein Suffix hinterlegt, wird das generische 
Suffix .what<Ordnungsnummer des Parameter> angehängt. Ist keine Abbildung möglich oder der 
Datentyp nicht bekannt, werden die Phrasenbestandteile dem Methodennamen hinzugefügt. Dieses 
Verfahren wird für alle Parameter des Modells durchgeführt. 


In diesem Beispiel soll veranschaulicht werden, wie Methodensignaturen synthetisiert werden. 
Das Beispiel geht auch auf die unterschiedlichen Varianten der Verwendung der Parameter des 
Modells ein. 


Natürlichsprachliche Sequenz 
serving wine means |...] 


Erläuterung 


Bei diesem Abschnitt einer Beispieläußerung handelt sich um eine deklarative Phrase. Der 
Agent erkennt in diesem Fall anhand der semantischen Rollen, sowohl serving als auch 
means als Verben. Zweiteres wird mithilfe einer Stoppwortliste ausgeschlossen. Aus dem 
Lemma von ersterem wird der erste Teil des Methodennamens gebildet: serve. Anschließend 
wird versucht, wine auf ein Ontologie-Individuum abzubilden. Angenommen der Agent 
findet das Individuum RedWineBottle, welches dem Konzept Graspable zugeordnet ist und 
Graspable ist ein zulässiger Datentyp, dann wird in diesem Fall folgende Signatur synthetisiert: 


serve(serve.what : Graspable). Kann hingegen keine zulässige Abbildung gefunden 


werden, wird die Signatur serveWine() erzeugt. 


54 Wie zuvor beschrieben, wurden die Phrasen in den Modellknoten bereinigt, das bedeutet, sie enthalten beispielsweise 


keine Stoppwörter oder Hilfsverben. 


> Die Abbildung von Phrasen auf Ontologie-Individuen wird im folgenden Paragraphen beschrieben. 
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Synthese von Methodenrümpfen und Skripten 


Nachdem die Signatur der neuen Methode synthetisiert wurde, wird der Rumpf aufgebaut. Hierzu 
werden die Instruktionen im Modell auf API-Aufrufe abgebildet. In einem ersten Schritt werden 
Blätter des Modells, also alle Namen und Parameter, einzeln auf Ontologie-Individuen abgebildet. 
Um in der Ontologie nach passenden Individuen suchen zu können, werden die Phrasen vorverarbeitet 
und zu Suchwörtern konkateniert. Hierzu werden zunächst aus den Phrasen drei Wortmengen 
gebildet: die unveränderten Wörter der Phrase, die Lemmata aller Wörter und Synonyme. Aus 
den Mengen wird jeweils die Potenzmenge gebildet und anschließend jede mögliche Permutation 
erzeugt; zuletzt werden die Wörter konkateniert. Aus der Phrase is closed entstehen beispielsweise 
die folgenden Suchwörter: isclosed, closedis, beclose, closebe, closed, is, etc. Anschließend wird in 
der Ontologie nach Individuen gesucht, deren Bezeichner ähnlich zu den Suchwörtern sind. Als 
Ähnlichkeitsmetriken werden die Jaro-Winkler-Ähnlichkeit und die unscharfe Ähnlichkeitsbewertung 
(engl. fuzzy score), wie in Abschnitt 2.3.13)eingefiihrt, verwendet. Die Suchstrategien, wie in |Ab- 


schnitt 5.4.2|beschrieben, sind so konfiguriert, dass alle Übereinstimmungen, die entweder eine 


Jaro-Winkler-Ähnlichkeit größer 0,4 oder eine unscharfe Ähnlichkeitsbewertung größer 0,15 erzielen, 
zurückgegeben werden >| Der Grund für die relativ niedrig angesetzten Schwellenwerte ist folgender: 
Diese erste Suche soll möglichst viele Kandidaten generieren. 


Die so erzeugte Kandidatenmenge wird in der Folge reduziert; zuletzt werden die Kandidaten 
bewertet. Werden die Schwellenwerte höher angesetzt, besteht die Gefahr, dass Abbildungen, die 
sich in der Folge als richtig herausstellen, bereits an dieser Stelle ausgefiltert werden. Da für jede 
Phrase mehrere Suchwörter gebildet wurden, entstehen potenziell auch mehrere unterschiedlich 
bewertete Übereinstimmung zwischen einer Phrase und einem Ontologie-Individuum. In diesem 
Fall wird jeweils der höchste ermittelte Wert für beide Metriken (Jaro-Winkler und unscharfe 
Ähnlichkeitsbewertung) als Bewertung für die Abbildung übernommen. 


Nachdem für die einzelnen Namen und Parameter Abbildungskandidaten erzeugt wurden, werden 
diese im zweiten Schritt zu vollständigen API-Aufrufen kombiniert und bewertet. Hierzu werden 
wiederum Namen und Parameter einer Instruktion (im Modell) gemeinsam betrachtet. Ausgehend 
von Abbildungskandidaten für Methodennamen werden alle möglichen Parameterbelegungen erzeugt. 
Hierzu wird für jeden Methodenkandidaten in der Ontologie geprüft, welche formalen Parameter die 
Signatur erforder(>”| Der Agent befüllt die formalen Parameter anschließend mit allen gefundenen 
Parameterkandidaten. An dieser Stelle werden die Datentypen der Parameterkandidaten mit denen 
der formalen Parameter abgeglichen und nur die Parameter passenden Typs übernommen. Eine 
Methode inklusive Parameterbelegungen bildet einen API-Aufruf-Kandidaten. Kann für einen 
Methodenkandidaten keine gültige (oder nur eine teilweise gültige) Parameterbelegung ermittelt 
werden, wird dieser trotzdem in die Ergebnismenge übernommen. Die fehlenden Parameter werden 
gekennzeichnet. 


5° Beide Werte können über die Konfiguration des Agenten angepasst werden. 


Natürlich ist es möglich, dass die API formale Parameter primitiven Typs oder Standard-Typen (beispielsweise 
Zeichenketten oder Enumerationen) enthält. Diese werden mithilfe von Heuristiken erkannt und fließen ebenso in die 
Menge der Parameterkandidaten ein. 
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In diesem Beispiel soll veranschaulicht werden, wie aus Methodennamen- und Parameterkan- 
didaten Kandidaten für vollständige Aufrufe (Methoden inklusive Argumente) erzeugt werden. 
Diskutiert wird dabei auch die Überprüfung des Typs der Parameterkandidaten. 


Natürlichsprachliche Sequenz 


[fake] [the cup] from [the table] 


Abbildungskandidaten 


take grasp(grasp.what Graspable) 
grasp(grasp.where Location, grasp.what Graspable) 


uncap(uncap.what Openable) 


Cupboard, vom Typ Location 


a 
Br 
Ar 

the cup — Mug, vom Typ Graspable 
= 
= 


the table Kitchentable, vom Typ Location 


Erlauterung 


Für den ersten Methodenkandidaten wird der Aufruf grasp (Mug) erzeugt, da die Metho- 
de nur einen formalen Parameter aufweist und nur Mug hinsichtlich des Typs passt. Der 
zweite Methodenkandidat erwartet zwei Parameter unterschiedlichen Typs. Es wird daher 
der Aufruf grasp(Kitchentable, Mug) erzeugt. Nicht erzeugt wird hingegen der Aufruf 
grasp(Cupboard, Mug). Zwar stimmen die Typen der Parameter mit denen der formel- 
len Parameter überein. Jedoch gehen beide Parameterkandidaten auf dieselbe Phrase in 
der natürlichsprachlichen Äußerung zurück (the cup). Eine solche Abbildung wäre seman- 
tisch nicht sinnvoll und wird daher ausgeschlossen. Für den letzten Kandidaten kann keine 


Parameterbelegung ermittelt werden: uncap (?) 


Die API-Aufruf-Kandidaten werden in einem letzten Schritt bewertet. In diese Bewertung fließen 
die Bewertungen (Jaro-Winkler und unscharfe Ähnlichkeitsbewertung) der einzelnen Bestandteile 
(Methodennamen und Parameter) ein. Zusätzlich wird der Anteil der Wörter der natürlichsprachlichen 
Äußerung, die für die Abbildung verwendet wurden, und das Verhältnis der formalen zu den aktuellen 
Parametern einbezogen. Die Bewertung S(c) eines Aufruf-Kandidaten c berechnet sich wie folgt: 


S(c) = d x ®(c) * Sulc) + (1 — $) * Sp(c) (7.6) 
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Der erste Summand stellt die Bewertung des Methodenkandidaten dar, der zweite die der zu- 
gehörigen Parameterbelegung (Argumente). Das Verhältnis, mit dem beide Summanden in die 
Gesamtbewertung einfließen, kann über den Parameter & angepasst werden. Die Bewertung des 
Methodenkandidaten wird zudem mithilfe eines Faktors für perfekte Abbildungen ®(c) skaliert: 


ae i M(c) > 0,9 EN 


1 andernfalls 


Durch die Verwendung von ®(c), können Methodenkandidaten, deren Bezeichner besonders 
ähnlich zur natürlichsprachlichen Äußerung sind, bevorzugt werden. Hierzu wird ®(c) für alle 
Methodenkandidaten mit einer Bewertung Sm (c) größer 0,9 auf 7 und für alle anderen auf 1 gesetzt. 
Der Skalierungsfaktor 7 ist frei konfigurierbar; sinnhafte Werte liegen jedoch im Bereich (1; 1,5]. 
Die eigentliche Bewertung eines Methodenkandidaten Swm (c) wird wie folgt ermittelt: 


b Hr(o)| 

Sule) = a Tre) ne 
Die Methodennamenbewertung M (c) ist lediglich das Maximum aus Jaro-Winkler und unscharfer 
Ähnlichkeitsbewertung, die zwischen der natürlichsprachlichen Phrase und dem Bezeichner der 
Methode bei der Abbildung ermittelt wurden. Diese reine Methodennamenbewertung kann durch den 
Subtrahenden reduziert werden. Der Subtrahend spiegelt wider, wie gut der Bezeichner die Wörter 
der ursprünglichen Phrase repräsentiert. Er ist zusammengesetzt aus zwei Faktoren. Der zweite 
ist eins minus der Anteil der Wörter der natürlichsprachlichen Phrase, die auf einen Bestandteil 
des Bezeichners abgebildet wurden (Ir(c)), im Verhältnis zu allen Wörtern der Phrase Iı(c). 
Dieser Faktor stellt somit den Anteil der nicht abgebildeten Wörter der Phrase dar. Der andere 
Faktor skaliert diesen Wert um den Faktor ß, welcher durch die Länge der Phrase geteilt wird. Der 
Grundgedanke hinter dieser Art von Skalierung im Verhältnis zur Phrasenlänge ist folgender. In 
kurzen Phrasen trägt jedes einzelne Wort verhältnismäßig mehr Informationen als in langen Phrasen. 
Das bedeutet, wurden in kurzen Phrasen einzelne Wörter nicht für die Abbildung verwendet, ist 
es eher wahrscheinlich, dass die Abbildung inkorrekt ist; es erfolgt eine stärkere Abwertung. Bei 
langen Phrasen hingegen ist es nahezu unmöglich alle Wörter in die Abbildung einfließen zu lassen. 
Gleichzeitig geht das Fehlen eines einzelnen Wortes im Verhältnis zur gesamten Phrase mit einem 


geringeren Informationsverlust einher. Mithilfe des zweiten Summanden der|Gleichung 7.6/flieBt die 


Bewertung der Parameterbelegung (Sp(c)) in die Gesamtbewertung des Aufruf-Kandidaten (S(c)) 
ein. Die Bewertung aller Parameter eines Kandidaten berechnet sich wie folgt: 


Sp(c) = P(c) -wxT (7.9) 


Der Minuend P(c) stellt die eigentliche Bewertung der einzelnen Parameter dar: 


P(c) = $. Sp,(c) * 5 (7.10) 
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Pm ist die Menge aller Parameter p; des Modells, die auf einen formalen Parameter des Aufruf- 
Kandidaten abgebildet werden konnten; S, (c) ist die Ahnlichkeitsbewertung eines (abgebildeten) Pa- 
rameters p;. Die Menge Po(c) umfasst alle formalen Parameter des betrachteten Aufruf-Kandidaten 
c (wie in der Domänenontologie hinterlegt). Anschaulich gesagt, berechnet P(c) die Summe aller 
Ähnlichkeitsbewertung der abgebildeten Parameter multipliziert mit dem Verhältnis abgebildeter 
Parameter zu den (erforderlichen) formalen Parametern des Aufruf-Kandidaten. Der Subtrahend der 


Gleichung 7.9|ist ein gewichteter Strafterm (konfigurierbarer Faktor w), der die Parameterbewer- 


tung verringert, falls nicht alle Parameter der Instruktion im Modell abgebildet werden konnten. 
Anschaulich erfolgt eine Abwertung, falls in der natürlichsprachlichen Äußerung mehr beschrieben 
als in der Parameterbelegung abgebildet wurde. Formell wird [ wie folgt berechnet: 


_ |Pel —|Pul 


T= Pal (7.11) 


Pr ist dabei die Menge aller Parameter der Instruktion im Modell. I entspricht somit dem 
Verhältnis aller nicht abgebildeten Parameter des Modells (|Pz| — |Pas|) zur Anzahl der aus der 
natürlichsprachlichen Äußerung extrahierten Parameter (| P|). In der Standard-Konfiguration des 
Pro/,-Agenten sind folgende Werte fiir die konfigurierbaren Parameter voreingestellt: 


e ġ = 0,6 (Verhältnis Methodennamenbewertung zu Parameterbelegungsbewertung) 
e T = 1,5 (Skalierungsfaktor für perfekte Abbildungen des Methodennamens) 
e 3 = 0,5 (Faktor des Strafterms für die Methodennamenbewertung) 


e w = 0,3 (Faktor des Strafterms für die Parameterbelegungsbewertung) 


Die Werte wurden empirisch anhand der Beschreibungen zum vierten Szenario der Online- 
Datensammlung ermittelt (siehe |Abschnitt 5.5.3). Zuletzt hinterlegt der Agent seine Analyse- 
Ergebnisse im Proy,,-Graphen. Die Datenstruktur entspricht im Wesentlichen dem in Abbil- 


dung 7.21|dargestellten Modell. Je Modell-Element wird ein neuer Knotentyp angelegt. Für die 


Instruktionen werden zudem die synthetisierten API-Aufrufe gemäß ihres Ranges zusammen mit 
ihrer jeweiligen Konfidenz hinterlegt. Da für eine Instruktion potenziell eine große Anzahl an Aufruf- 
Kandidaten generiert wird, kann die maximale Anzahl der zu hinterlegenden API-Abbildungen 


konfiguriert werden (Standardwert 10). 


7.8.2 Evaluation des Agenten zur Synthese von 
Methodendefinitionen und Skripten 


Für die Evaluation des Pro/,,-Agenten zur Synthese von Methodendefinitionen und Skripten 
wurden Beschreibungen zu den Szenarien eins bis drei der Online-Datensammlung verwendet 


(siehe [Abschnitt 5.5.3 = Da die Bewertung der Ergebnisse teilweise manuell erfolgt, konnte 


®® Die Beschreibungen zum vierten Szenario wurden nicht verwendet, da diese für die Entwicklung des Agenten 


verwendet wurden (siehe |Abschnitt 7.8.1). 
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Tabelle 7.34: Datensatz für die Evaluation des Agenten zur Synthese von Methodendefinitionen und Skripten. 


Beschreibungen lehrend nicht-lehrend API-Aufrufe 


Szenario Online_l 25 18 7 77 
Szenario Online 2 25 19 6 97 
Szenario Online_3 25 15 10 123 
Gesamt 75 52 23 297 


nicht automatisch auf den vollständigen Datensätzen evaluiert werden. Stattdessen wurden aus 


jedem Datensatz zufällig 25 Äußerungen gezogen. 'Tabelle 7.34| gibt einen Überblick über den 


verwendeten Datensatz. Das Verhältnis von lehrenden zu nicht-lehrenden Äußerungen ist 69% 
zu 31% und ist damit ähnlich zum Verhältnis in den vollständigen Datensätzen (63% zu 37%, 
siehe ‚Abschnitt 7.7.1). Der Datensatz enthält 52 Lehrsequenzen, das bedeutet, der Agent sollte 
52 Methodensignaturen erzeugen. Darüber hinaus enthalten die spezifizierenden Abschnitte der 


Beschreibungen 297 Instruktionen. Dementsprechend müssen für die Methoden-Rümpfe bzw. 
Skripte ebenso viele API-Aufrufe synthetisiert werden. Um die synthetisierten API-Aufrufe zu 
evaluieren, wird eine Domänenontologie benötigt. Passend zu den Szenarien, wurde hierzu die 
API-Ontologie Haushaltsroboter (ARMAR-III) mit der Umgebungsontologie Küche verschmolzen 
(siehe Abschnitt 5.4.3). Die so erzeugte Ontologie umfasst 


e 92 Methoden, 

e 59 Parameter, 

e 20 Datentypen (inklusive primitiver und Standard-Datentypen), 
e 70 Umgebungsobjekte aus 

e sechs Klassen (u.a. Graspable und Location), die 


e sechs unterschiedliche Zustände einnehmen können (u.a. opened und closed). 


Für die API-Aufrufe wurde ein Gold-Standard erstellt; zur Beschreibung passende Aufrufe können 
der Domänenontologie entnommen werden. Für die Methodensignaturen wurde hingegen auf 
einen Gold-Standard verzichtet, da zum einen für Methodennamen viele unterschiedliche, aber 
gleichwertige Varianten möglich sind und zum anderen manche Beschreibungen formelle Parameter 
erfordern, andere jedoch nicht. Stattdessen soll nachträglich entschieden werden, ob die synthetisierte 
Methodensignatur hinsichtlich der natürlichsprachlichen Äußerung sinnhaft ist. 


Der Synthese-Prozess des Agenten fußt auf den Analyse-Ergebnissen anderer Agenten und Vor- 
verarbeitungsstufen (siehe [Abschnitt 7.8.1). Für die Etiketten des Agenten zur Erkennung und 
Analyse von Lehrsequenzen in natürlicher Sprache, welche die Hauptgrundlage bilden, liegen 
händisch erstellte Lösungen vor, die verwendet werden können (siehe|Abschnitt 7.7.2). Für die 
weiteren Abhängigkeiten liegen keine Musterlösungen vor. Dementsprechend wurden das voll- 


ständige Vorverarbeitungsfließband von Prof, sowie die entsprechenden Agenten ausgeführt, 


266 


7.8 Synthese von Methodendefinitionen und Skripten 


Tabelle 7.35: Ergebnisse der Evaluation für die Abbildung natürlichsprachlicher Phrasen auf einzelne API-Elemente 
(Ontologie-Individuen): Phrasen werden entweder auf Methoden oder Parameter abgebildet. Die Ergebnisse in Klammern 
geben die Ergebnisse unter Ausschluss von fehlerhaften semantischen Rollen an. 

Einzelbestandteile (Methoden und Parameter) 

Präzision Ausbeute Fy ø Rang 

Szenario Online_1 | 0,763 0,584 (0,776) 0,662 (0,769) 1,31 

Szenario Online_2 | 0,783 0,742 (0,857) 0,762 (0,818) 1,16 

Szenario Online_3 | 0,847 0,813 (0,893) 0,830 (0,870) 1,16 

Gesamt 0,807 0,731 (0,854) 0,767 (0,830) 1,20 


um die Analyse-Grundlage zu schaffen. Mögliche Fehlerquellen, die auf diese Abhängigkeiten 
zurückzuführen sind, können dementsprechend nur nachträglich analysiert werden. Zuletzt wurde 
der Agent ausgeführt, um Methoden bzw. Skripte für die 75 Äußerungen des Evaluationsdatensatzes 
zu erzeugen. 


Der Agent synthetisiert für alle 52 Lehrsequenzen des Datensatzes eine Methodensignatur. Allerdings 
sind acht der erzeugten Methodennamen unpassend. Ein Name wird als unpassend gewertet, wenn er 
aus Termen zusammengesetzt ist, die keinen Bezug zur zu erlernenden Funktion haben, oder wenn 
zusätzliche (unnötige) Wörter angehängt wurden. Beispielsweise wurden für das Szenario Kaffee 


zubereiten (zweites Szenario der Online-Datensammlung) die Namen askSpeaker| (erster Fall) 
und prepareCoff eeFriend™| (zweiter Fall) synthetisiert. Für die 52 Methodensignaturen wurden 
zudem 23 formalen Parametern synthetisiert, die alle als korrekt (hinsichtlich der zugehörigen 
Beschreibung) eingestuft werden (keine falsch positiven Ergebnisse). Ob darüber hinaus formale 
Parameter fehlen (falsch negative Ergebnisse), lässt sich aus dem Resultat nicht ableiten. 


Die Evaluation der API-Aufrufe wurde zweistufig durchgeführt. Zunächst wurde die Abbildung auf 
einzelne API-Elemente (Ontologie-Individuen) betrachtet, also Methodennamen, Parameter, etc. 


Anschließend wurden die zusammengesetzten API-Aufrufe evaluiert. Die Tabelle 7.35) zeigt die 
Ergebnisse für die Betrachtung der Individuen, [Tabelle 7.36|die Ergebnisse für die synthetisierten 
API-Aufrufe. Beide geben jeweils Präzision, Ausbeute und das F}-Maß an. Der Agent erzeugt eine 


nach Konfidenzen sortierte Ergebnisliste; für die Berechnung der zuvor genannten Metriken wurde 
das (durch den Agenten) höchstbewertete Individuum (bzw. API-Aufruf) betrachtet. Zusätzlich 
wurde jedoch der durchschnittliche Rang bemessen, auf dem sich das korrekte Individuum (bzw. 
der korrekte API-Aufruf) befindet. Während der Evaluation konnten fehlerhafte (bzw. fehlende) 


5® Dieser Methodenname wurde aus der folgenden Äußerung generiert: „if I ask you to get me a drink [...]“. In diesem 


Fall hat der Agent zur Erkennung und Analyse von Lehrsequenzen in natürlicher Sprache nur den ersten fünf Wörtern 
statt der vollständigen Phrase (wie es korrekt gewesen wäre) die Etikette Deklaration zugewiesen. Folglich werden 
auch nur diese fünf Wörter bei der Synthese des Methodennamens berücksichtigt. Die Bereinigung reduziert die 
Wortmenge auf die Wörter / und ask, wobei ersteres anschließend auf das Ontologie-Individuum Speaker abgebildet 
wird. 

Dieser Methodenname wurde aus der folgenden Äußerung generiert: „hi my friend preparing coffee means [...]“. In 
diesem Fall hat der Agent zur Erkennung und Analyse von Lehrsequenzen in natürlicher Sprache das Wort friend 
fälschlich die Etikette Deklaration zugeordnet (siehe Abschnitt 7.7.4). Daher wird dieses Wort bei der Synthese des 
Methodennamens mitverwendet. 
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Tabelle 7.36: Ergebnisse der Evaluation für die Erzeugung zusammengesetzter API-Aufrufe: Die Ergebnisse in Klammern 
geben die Ergebnisse unter Ausschluss von fehlerhaften semantischen Rollen an. 
zusammengesetzte API-Aufrufe 
Präzision Ausbeute Fi ø Rang 
Szenario Online_1 | 0,583 0,461 (0,614) 0,515 (0,598) 1,47 
Szenario Online _2 |0,674 0,620 (0,713) 0,646 (0,693) 1,19 
Szenario Online _3 | 0,672 0,645 (0,708) 0,658 (0,690) 1,20 
Gesamt 0,653 0,590 (0,689) 0,620 (0,670) 1,22 


semantische Rollen als wesentliche Fehlerquelle identifiziert werden. Daher sind in den Tabellen in 
Klammern zusätzlich die Ergebnisse aufgeführt, die erzielt werden, wenn Phrasen einer Äußerung 
nicht betrachtet werden, die keine Annotation semantischer Rollen erhalten haben. Der mittlere Wert 
für das Fı-Maß für die Abbildung auf einzelne API-Elemente ist 0,767. Die Präzision übertrifft 
dabei die Ausbeute um 0,076. Werden Fehler bei der Erzeugung semantischer Rollen ausgeschlossen, 
erreicht der Wert für das F}-Maß sogar 0,830. Diese Ergebnisse stellen auf den ersten Blick eine 
gute Grundlage für die Komposition der Aufrufe dar. Leider sinkt der Wert für das Fı-Maß bei 
Betrachtung dieser auf 0,620, wobei Ausbeute und Präzision ähnlich stark von der Verschlechterung 
betroffen sind. 


Bei genauerer Betrachtung zeigt sich, dass die Ergebnisse für die API-Aufrufe unter den gegebenen 
Umständen nicht besser hätten ausfallen können. Die Aufrufe bestehen durchschnittlich aus drei 
Elementen (eine Methode mit zwei Argumenten). Stellt nur eines dieser Elemente eine fehlerhafte 
Abbildung dar oder fehlt, muss die Aufruf-Komposition als fehlerhaft gewertet werden. Die Abbildung 
der einzelnen API-Elemente sollte dementsprechend zukünftig noch verbessert werden. Hierzu 
empfiehlt sich zunächst eine Bestandsaufnahme der bestehenden Fehlerursachen. Neben fehlender 
semantischer Rollen sind unpassende und fehlende Synonyme eine wesentliche Fehlerquelle. Führt 
WordNet kein Synonym für ein wichtiges Wort einer Äußerung, kann der Agent gegebenenfalls 
keine Abbildung auf ein Individuum der Domänenontologie finden. Inferiert andererseits der 
Babelfy-Agent eine falsche Wortbedeutung, kann es vorkommen, dass für die Abbildung ein 
unpassendes Synonym verwendet wird. Folglich bildet der Agent gegebenenfalls auf ein unpassendes 
Ontologie-Individuum ab. Einige Fehler lassen sich wiederum auf den Synthese-Prozess des Agenten 
zurückführen. Das verwendete Modell natürlichsprachlicher Methodendefinitionen ist in manchen 
Fällen nicht in der Lage, die Semantik einer Äußerung sinngemäß abzubilden. Beispielsweise erzeugt 
der Agent für die Phrase make sure you close it zwei API-Aufrufe: close(...) undmake(...). 
Solche überflüssigen Abbildungen werden auch für erklärende Aussagen wie the machine fills 
cups generiert, sofern der entsprechende Abschnitt vom Agenten zur Erkennung und Analyse 
von Lehrsequenzen in natürlicher Sprache nicht als irrelevant (Klasse Sonstige) gekennzeichnet 
wurde. Die bis hierher diskutierten Fehlerquellen treten bereits bei der Abbildung auf einzelne 
API-Elemente auf. Hinsichtlich der Komposition von API-Aufrufen zeigt sich, dass vor allem die 
Methodenargumente eine wesentliche Fehlerursache darstellen. Parameterbelegungen sind in vielen 
Fällen nicht eindeutig. Beispielsweise ist für die Phrase open the door unklar, um welche Tür 
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(engl. door) es sich handelt. Viele derartige Mehrdeutigkeiten, aber nicht alle, können mithilfe des 
Kontextmodells aufgelöst werden. Ein verwandtes Problem sind fehlerhaft aufgelöste Korreferenzen; 
jeder Fehler führt potenziell zu einem falschen Methodenargument. Auch wenn viele Fehler auf 
inkorrekte Analysen der abhängigen Module (die in Zukunft verbessert werden könnten) oder 
auf nicht beachtete Fälle im Agenten zurückgeführt werden können, haben ebenso viele ihren 
Ursprung in unpräzisen oder unvollständigen natürlichsprachlichen Beschreibungen. In vielen dieser 
Fälle könnte der Dialog-Agent in Zukunft Abhilfe schaffen (siehe [Abschnitt 7.10). Eine weitere 
Möglichkeit wäre eine Prüfung der Plausibilität der Aufruffolgen. Für eine Umsetzung ist jedoch 


entscheidend, dass die korrekten API-Aufrufe eine hohe Konfidenz erhalten und dementsprechend 
zu Beginn der Kandidaten-Liste geführt werden. Das bedeutet, der durchschnittliche Rang des 
korrekten Elements ist von Interesse. Erfreulicherweise zeigen die Evaluationsergebnisse, dass der 
durchschnittliche Rang häufig nahe eins liegt; für die Individuen ist er im Mittel kleiner gleich 1,2 
und für API-Aufrufe nur geringfügig schlechter (1,22). Mithilfe des Bewertungsmechanismus für die 
API-Aufruf-Kandidaten gelingt es also, die richtigen Elemente am Anfang der Liste zu platzieren. 


7.9 Auswahl von Zielsystem- und 
Umgebungsontologien 


Eines der Ziele beim Entwurf von Prog% ist die Domänenunabhängigkeit (siehe|Abschnitt 5.1). Die 


starke Kapselung der Komponenten in PARSE ermöglicht die Umsetzung dieses Zieles. Lediglich 
die Verwendung der Ontologien zur Modellierung des Zielsystems und der Umgebung, mit denen 
Proy,, konfiguriert werden muss, erzeugen eine (wenn auch nur geringfügige) Abhängigkeit 
von der Domäne. Besser wäre es die Ontologien zur Laufzeit auszuwählen. Prog, würde in 
seiner Verwendung noch flexibler; so Könnten beispielsweise gleichzeitig mehrere Systeme (über 
unterschiedliche Zielsystemontologien) in unterschiedlichen Umgebungen (über verschiedene oder 
mehrere Umgebungsontologien) angesprochen werden, ohne dass die Konfiguration angepasst werden 
müsste. Gleichzeitig blieben die Vorteile kleiner Ontologien gegenüber einer gemeinsamen Ontologie 
erhalten (siehe [Abschnitt 5.4). Mit einer derartigen Erweiterung müssten die entsprechenden 
Ontologien nur noch bereitgestellt werden, die Auswahl geschieht dann automatisch. Eine Möglichkeit 


zur Umsetzung dieser Idee stellt die Verwendung von Diskurs-Themen-Etiketten dar (siehe |Ab- 


schnitt 7.3). Die erkannten Diskurs-Themen in natürlichsprachlichen Äußerungen können auf 


Ontologie-Themenbereiche abgebildet werden. Die besten Abbildungen können dann als Auswahl 
der Ontologien interpretiert werden. 


Die Herausforderung, Ontologien für eine bestimmte Aufgabe auszuwählen, ist Gegenstand unter- 
schiedlicher Forschungsbereiche, wie ontologiebasierte Fragebeantwortung (engl. ontology-based 
question answering) oder semantikangereichertes Web-Browsing (engl. semantically enriched 
web browsing) [LSMO6} Sab+06} SLMO06]. Üblicherweise verwenden Ansätze zur Auswahl von 
Ontologien (engl. ontology selection) lexikalische Informationen [POA11}|KK12]. Kein bekannter 


Ansatz verwendet jedoch explizit Diskurs-Themen. Da Proy,, zwischen Umgebungs- und Ziel- 


systemontologien unterscheidet (siehe Abschnitt 5.4.1), PARSE aber nur die Verwendung einer 


Ontologie zulässt (siehe Abschnitt 4.2), müssen die ausgewählten Ontologien zudem verschmolzen 
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A 


werden. Die fiir Pro lV 


schmolzen werden konnen. Uber die Konzepte Objekt und State werden De-Facto-Schnittstellen 


verwendeten Ontologien sind jedoch so entworfen, dass sie einfach ver- 


bereitgestellt, sodass die entsprechenden Konzepte der Umgebungsontologien an diesen Stellen in 
die Zielsystemontologien eingefügt werden können. Die Anwendung eines Ansatzes aus dem For- 
schungsgebiet der Ontologieverschmelzung (engl. ontology merging) ist somit nicht nötig. Ansätze 
aus diesem Forschungsgebiet betrachten die Verschmelzung von heterogenen Ontologien [HQO8} 


CAS09} SA09]. Das bedeutet, es gibt — anders als für Prof, vorgesehen — im Allgemeinen keine 


(völlig) übereinstimmenden Konzepte oder Individuen, sodass Ähnlichkeiten bestimmt werden 
müssen, um Verschmelzungen durchführen zu können. 


Der Fokus des hier vorgestellten Ansatzes kann dementsprechend gänzlich auf die Auswahl der 
Ontologien gelegt werden. Bevor Ontologien automatisch ausgewählt werden können, müssen 
alle Individuen und Konzepte der Ontologien soweit möglich mit Bedeutungs-Etiketten (das heißt 
Wikipedia-Artikel-Bezeichnern) versehen werdenl®!| Durch dieses Vorgehen werden sie (ebenso 
wie die Substantive der natürlichsprachlichen Äußerung) disambiguiert. Dieser Schritt muss derzeit 


manuell (aber nur einmal bei der Erstellung der Ontologie) durchgeführt werden. Das in |Ab+ 
vorgestellte Verfahren ist aber prinzipiell auch auf Ontologien übertragbar, sodass 
zukünftig Themen-Etiketten auch für Ontologien automatisch generiert werden könnten. 


7.9.1. Implementierung des Agenten zur automatischen 
Auswahl von Zielsystem- und Umgebungsontologien 


Der für Pro, entwickelte Agent zur automatischen Auswahl von Zielsystem- und Umgebungson- 
at 


tologien |Wei+20a] nutzt die in der natürlichsprachlichen Äußerung erkannten Diskurs-Themen 


zur Auswahl passender Ontologien. Das bedeutet der Agent ist abhängig von den Ergebnissen des 
Agenten zur Modellierung und Etikettierung von Diskurs-Themen (siehe Abschnitt 7.3). Sobald 
die erkannten Themen der natürlichsprachlichen Äußerung in Form eines neuen Knotens vom Typ 


topics zur Verfügung stehen, liest der Agent die Themen-Etiketten samt Konfidenzen aus. An- 


schließend wird das in Abschnitt 7.3|vorgestellte Verfahren zur Generierung von Themen-Etiketten 


auf alle zur Verfügung stehenden Ontologien angewandt. Da das Verfahren ausschließlich auf den 


disambiguierten Bedeutungen beruht, ist es ohne Anpassung auch auf Ontologien anwendbar 62] 


Anschließend werden die extrahierten Themen der natürlichsprachlichen Äußerung mit den Themen 
der Ontologien verglichen. Das Ziel des Verfahrens ist es, möglichst viele Zusammenhänge in den 
behandelten Themen zu erfassen. Je mehr Zusammenhänge ermittelt werden können, desto besser 
passt eine Ontologie zu einer Äußerung. Um die Zusammenhänge zu ermitteln, werden erneut 
Themengraphen (ähnlich zu denen in[Abschnitt 7.3|vorgestellten) aufgebaut. Daraufhin wird der 
Abstand zwischen den Themen der Äußerung und den Themen einer jeden Ontologie verwendet, um 


6l Für einige Bedeutungen existiert kein Wikipedia-Artikel (siehe|Abschnitt 7.2). Individuen und Konzepte, fiir die 
keine Bedeutungs-Etiketten gefunden werden können, werden ausgelassen. Die Vollständigkeit der Etiketten ist keine 
Voraussetzung fiir die Anwendbarkeit der hier vorgestellten Lösung. 

Im Gegensatz zur Standard-Konfiguration wird zur Disambiguierung von Ontologien die Strategie Höchste Konnekti- 
vität verwendet, da Ontologien — wie in Prof, verwendet — abgeschlossene Themen-Bereiche umfassen. 
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die Ähnlichkeit zu ermitteln. Formal bedeutet dies, dass die Ähnlichkeit W(t, T,) eines Themas 
der natürlichsprachlichen Äußerung t zu einer Menge von Themen einer Ontologie T, wie folgt 
berechnet wird (die Menge aller generierten Themen der natürlichsprachlichen Äußerung wird als 
Ty, bezeichnet): 


1 


Wr(t, To) = 
r(t, To) Mint er, (dist(t,to)) +1’ 


ten, (7.12) 


Der Abstand dist(t, to) ist definiert als der kürzeste Pfad zwischen einem Thema der Äußerung t 
und einem Thema der Ontologie to. Der minimale Abstand ist 0, wenn ¢ einem der Themen der 
Ontologie entspricht (t € Tą A To). In diesem Fall ist die Ähnlichkeit maximal, Yy gleich 1. Kann 
kein Pfad zwischen t und allen Elementen von T, bestimmt werden, wird Wr gleich O gesetzt. 
Das bedeutet, der Wertebereich von Wp ist 0 bis 1. Die Ähnlichkeiten je Thema werden zu einem 
gemeinsamen Ähnlichkeitswert zusammengefasst. Die gemeinsame Ähnlichkeit Y 4... gibt an, wie 
ähnliche alle Themen einer Äußerungen T,, den Themen einer Ontologie T, sind: 


Ur(t, To 
W tee(Tay To) = Se ) (7.13) 


Auf diese Weise werden die Ähnlichkeiten der natürlichsprachlichen Äußerung zu allen Ontologien 
bestimmt. Anschließend können die passendsten Ontologien ausgewählt werden. Für die Auswahl 
gibt es unterschiedliche Möglichkeiten. Eine Möglichkeit besteht darin, die n besten Ontologien 
auszuwählen. Dieses Vorgehen birgt allerdings die Gefahr, zu viele oder zu wenige Ontologien 
auszuwählen. Gegebenenfalls könnten Ontologien ausgewählt werden, die nur einen geringen 
Ähnlichkeitswert Y Acc aufweisen (um bis zu n aufzufüllen), oder aber eigentlich passende Ontologien 
mit einem hohen Ähnlichkeitswert nicht ausgewählt werden (da bereits n Ontologien gewählt 
wurden). Daher ist eine zweite Möglichkeit, die Ontologien anhand eines Schwellenwertes fiir Y acc 
auszuwählen. Ein fest gewählter Schwellenwert wiederum birgt andere Risiken. Ist der Schwellenwert 
zu hoch gewählt, besteht die Möglichkeit, dass keine Ontologie gewählt wird. Ist andererseits der 
Schwellenwert zu niedrig, könnten viele unpassende Ontologien gewählt werden. Letzteres ist zwar 
nicht direkt schädlich, widerspricht aber der Entwurfsmaxime von Profy, nur kleine, präzise 


Ontologien zu verwenden (siehe Abschnitt 5.4). 


Daher wurde zur Auswahl ein flexibleres Modell entwickelt, das im Wesentlichen eine Kombination 
der beiden zuvor genannten Möglichkeiten darstellt. Um Ontologien o aus der Menge aller 
Ontologien O auszuwählen, wird ein flexibler Schwellenwert berechnet, der sich an dem Y 4..-Wert 
der ähnlichsten Ontologie ausrichtet: 


8(7,,0) = {j € O|Y Ace(Tu, Tj) > 0 x argmax;co V Acc(Tu, Ti)}, 0 € R| 6 = [0,1] (7.14) 


Der Schwellenwert wird bestimmt, indem der höchste Y 4,.-Wert mit dem Auswahl-Faktor 0 
multipliziert (und somit verringert) wird. 
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In diesem Beispiel soll die Berechnung des flexiblen Schwellenwertes zur Auswahl passender 
Ontologien zu einer natürlichsprachlichen Äußerung demonstriert werden. 


Annahmen 


Sei 


e der beste Ahnlichkeitswert zwischen der Äußerung und einer Ontologie 


argmax;co Y Acc(Tu, Ti) = 0,7 und 


e der Auswahl-Faktor 0 = 0,9. 


Ergebnis 


In diesem Fall wird der hintere Teil (flexibler Schwellenwert) der Gleichung 7.14 zu 0, 63 
ausgewertet. Das bedeutet, es werden alle Ontologien ausgewählt, die der folgenden Gleichung 
genügen: O(Tu, O) = {j € O|W Acc(Tu, Tj) } > 0,63. 


Der bis hierher vorgestellte Ansatz zur Auswahl von Ontologien bevorzugt Umgebungsontologien 
über Zielsystemontologien. Die natürlichsprachlichen Äußerungen (zumindest die des Prof,,- 
Korpus) enthalten selten Begriffe, die sich auf das verwendete System beziehen. Zwar werden häufig 
Funktionen des Systems genannt, allerdings zumeist nur in ihrer Verbform. Der Agent zur Modellie- 
rung und Etikettierung von Diskurs-Themen betrachtet nur Substantive (siehe Abschnitt 7.3); daher 
ist das Zielsystem hinsichtlich der generierten Themen-Etiketten unterrepräsentiert. Infolgedessen 


können auch keine Zielsystemontologien bestimmt werden, die ähnlich zur natürlichsprachlichen 
Äußerung sind. Aus diesem Grund wird die Auswahl der Zielsystemontologien angepasst. 


Hierzu werden zunächst nach dem zuvor beschriebenen Verfahren die Umgebungsontologien ausge- 
wählt. Anschließend wird bestimmt, wie gut ein System jeweils zu den ausgewählten Umgebungen 
passt. Diese Kompatibilität wird als Ähnlichkeit interpretiert. Formal wird die Ähnlichkeit Y Sys 
einer Zielsystemontologie o, zu den Themen einer natürlichsprachlichen Aussage T, anhand der 
Menge der zuvor ausgewählten Umgebungsontologien Ose; wie folgt berechnet: 


|DT.. N U;eo,., Objectsi| 2* Wacc(Tu, To,) 
3+ |DT,,| 3 


Y sys(0s, Tu, Osel) = (7.15) 


Die Kompatibilität einer Umgebungsontologie oe mit einer Zielsystemontologie o, hängt von den 


verwendeten Datentypen ab. Wie in/Abschnitt 5.4 beschrieben, kann ein Zielsystem in Prof, 


komplexe Datentypen über seine Schnittstellen anbieten. Diese Datentypen können wiederum als 
Konzepte in den Umgebungsontologien angegeben werden. Anhand der Übereinstimmung der 
Datentypen einer Zielsystemontologie o, mit den Object-Unterkonzepten der Umgebungsontologie 
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Oe kann die Ähnlichkeit Y Sys bestimmt werden. Die Ähnlichkeit Y Sys berechnet sich dann zu zwei 
Dritteln aus dem Y 4cc(Tu, T,)-Wertes der Zielsystemontologie (siehe|Gleichung 2.16) und einem 
Drittel aus dem soeben beschrieben Kompatibilitätswert. Formal ist Kompatibilität als Schnittmenge 


der Datentypen des Zielsystems (DT,,) und der Vereinigung aller Objekte-Konzepte der Umgebung 
(Us;eo,., Objectsi) definiert. 


In diesem Beispiel soll die Berechnung der Ähnlichkeit einer Zielsystemontologie zu ei- 
ner natürlichsprachlichen Äußerung mithilfe der zuvor ausgewählten Umgebungsontologien 
demonstriert werden. 


Annahmen 


Sei 


e der ermittelte Ahnlichkeitswert zwischen der Äußerung und der Zielsystemontologie 
Y Ace(Tu, T;) = 0,6, 


e die Zielsystemontologie os mit den Datentypen DT,, Locateable, Graspable sowie 
Openable versehen und 


e nur eine Umgebungsontologie ausgewählt, die zudem die folgenden Object- 
Konzepte beinhaltet: Graspable, Openable und Closeable. 


Ergebnis 


In diesem Fall ergibt sich für den hinteren Teil der|Gleichung 7.15| (reine Ähnlichkeit) ein Wert 
2*0,6 
n $ 
3 


vo = 0,4. Da die Mächtigkeit der Schnittmenge der Datentypen und Object-Konzepte 
2 beträgt, wird der vordere Teil (Kompatibilität) zu = = 0,22 ausgewertet. Insgesamt ergibt 


sich damit folgender Ähnlichkeitswert: Wsys(Os, Tu, Oset) = 0,22 + 0,4 = 0, 62. 


Die Ontologie-Auswahl wird dementsprechend zweimal durchgeführt, zunächst um die Umge- 
bungsontologien zu bestimmen und anschließend um die passende Zielsystemontologie zu bestimmen. 
So wird auch sichergestellt, dass immer mindestens eine Ontologie je Typ (Zielsystem und Um- 
gebung) ausgewählt wird. Zuletzt werden die ausgewählten Ontologien zusammengeführt. Dieser 
Schritt ist wie oben beschrieben aufgrund der für Pro, festgeschriebenen Ontologiestrukturen 


trivial (siehe Abschnitt 5.4.1). 
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Tabelle 7.37: Übersicht über die in der Evaluation der Ontologie-Auswahl verwendeten Ontologien: Die Spalte Typ gibt 
an, ob es sich um eine Zielsystemontologie (Z) oder eine Umgebungsontologie (U) handelt. 


Typ Bezeichnung Beschreibung 


Z  Haushaltsroboter Ein humanoider Haushaltsroboter wie ARMAR-III [Asf+06] 

Z  Assistenzsystem Ein intelligentes Assistenzsystem wie Amazons Alexa 

Z  Drohne Eine zivile Drohne, z.B. ein Quadrocopter 

Z Lego Mindstorm Ein Lego-Mindstorm-Roboter mit Kettenantrieb und Greifer 

U Küche Eine Küche, inklusive Möbeln, Utensilien, Lebensmitteln etc. 

U Bar Eine Bar, inklusive Möbeln, Cocktail etc. 

U Garten Ein Garten, inklusive Möbeln, Pflanzen, Werkzeugen etc. 

U Schlafzimmer Ein Schlafzimmer mit Möbeln 

U _ Spielzimmer Ein Kinderzimmer, inklusive Möbeln, Spielzeuge etc. 

U Musik Mit Musik in Verbindung stehende Konzepte wie Genres, Instrumente etc. 
U Heizung Eine Heizungsanlage und ähnliches, u. a. Heizungen, Klimaanlagen etc. 
U _Waschkiiche Eine Waschküche, inklusive Waschmaschine, Trockner, Waschmittel etc. 


7.9.2 Evaluation des Agenten zur automatischen Auswahl von 
Zielsystem- und Umgebungsontologien 


Für die Evaluation wurde der Datensatz der Evaluation des Agenten zur Modellierung und 
Etikettierung von Diskurs-Themen verwendet (siehe Abschnitt 7.3). Da der Agent zur Ontologie- 
Auswahl direkt von den Ergebnissen des Themen-Agenten abhängt, können die hier erzielten 


Ergebnisse auf diese Weise besser bewertet werden. Zusätzlich wurden neun weitere, synthetische 


Äußerungen erstellt (siehe Abschnitt D.2/des Anhangs). Diese decken zwei weitere Domänen ab und 


erfordern die Kombination mehrerer Umgebungsontologien. Der gesamte für die Evaluation genutzte 
Datensatz umfasst dementsprechend 33 Äußerungen, fünf davon erfordern die Kombination mehrerer 
Umgebungsontologien (hier Heizung und Bar, Musik und Bar sowie Küche und Garten). Insgesamt 
werden zwölf Ontologien angeboten, vier sind Zielsystemontologien und acht Umgebungsontologien. 


Eine Übersicht der verwendeten Ontologien wird in Tabelle 7.37|gegeben. 


Für alle Äußerungen wurde ein Goldstandard erstellt; das bedeutet, es wurde für jede Äußerung 
festgelegt, welche Ontologien für die Ausführung der in der Äußerung genannten Aktionen (bzw. 
Anweisungen) benötigt werden. Um die Evaluation durchzuführen, wurde zunächst das vollständige 
Proy,,-Vorverarbeitungsfließband ausgeführt (siehe Kapitel 6). Anschließend wurden die beiden 
Agenten zur Disambiguierung basierend auf Wikipedia und zur Modellierung und Etikettierung 


von Diskurs-Themen genau ein Mal und in dieser Reihenfolge ausgeführt (siehe Abschnitt 7.2 
Abschnitt 7.3). Zuletzt wurden der Agent zur automatischen Auswahl von Zielsystem- und 
Umgebungsontologien ausgeführt und die Ergebnisse mit dem Goldstandard verglichen. Zunächst 


Q 


un 


werden nur die Umgebungsontologien betrachtet. Jede richtig ausgewählte Ontologie gilt als richtig 
positives Ergebnis, jede falsche (oder zusätzliche) als falsch positives Ergebnis und jede ausgelassene 
(obwohl erwartete) als falsch negatives Ergebnis. Als Metriken dienen Präzision, Ausbeute, Fı-Maß 
und die Falsch-Positiv-Rate (f,-Rate, siehe [Abschnitt 2.4). Letztere wurde hier zusätzlich verwendet, 


274 


7.9 Auswahl von Zielsystem- und Umgebungsontologien 


Tabelle 7.38: Evaluationsergebnisse der Umgebungsontologieauswahl: Dargestellt sind die Werte für Präzision, Ausbeute, 
Fı-Maß und f,-Rate, die von verschiedenen Konfigurationen des Agenten zur Themen-Modellierung und -Etikettierung 
(TME) und des Verfahrens zur Ontologie-Auswahl erzielt werden. 


TME Ontologie-Auswahl 
#Themen |#Themen 0 Präzision Ausbeute Fy fp-Rate 
2*n 5 0,90 0,919 0,895 0,907 0,013 
2*n 5 0,85 0,809 0,895 0,850 0,035 
2*n 5 0,80 0,708 0,895 0,791 0,062 
5 0,90 0,850 0,895 0,872 0,027 
5 0,85 0,791 0,895 0,840 0,040 
5 0,80 0,761 0,921 0,833 0,049 
2*n 10 0,90 0,778 0,921 0,843 0,044 
5 10 0,90 0,790 0,895 0,840 0,040 


da (wie in|Abschnitt 5.4|diskutiert) Pro, mit möglichst kleinen Ontologien konfiguriert werden 


soll. Mithilfe der Falsch-Positiv-Rate kann bestimmt werden, wie viele (Teil-)Ontologien unnötig 
zur Konfiguration hinzugefügt wurden. 


Tabelle 7.38 zeigt die Ergebnisse der Evaluation für unterschiedliche Konfigurationen. Die erste 


Spalte gibt die Konfiguration des Agenten zur Modellierung und Etikettierung von Diskurs-Themen 
an, genauer gesagt, wie viele Themen-Etiketten dieser pro Äußerung generiert. Das n ist dabei die 
Anzahl an einzigartigen Bedeutungen der Substantive in der natürlichsprachlichen Äußerung (siehe 
Abschnitt 7.2). Die zweite Spalte gibt die Anzahl an generierten Themen für die Ontologien an 
und die dritte den verwendeten Auswahl-Faktor 0. Unabhängig von der gewählten Konfiguration 


erreicht das Verfahren gute Evaluationsergebnisse; das Fı-Maß liegt je nach Konfiguration zwischen 
0,791 und 0,907. Auch die Falsch-Positiv-Rate ist durchgehend niedrig. Insgesamt werden die 
besten Ergebnisse für die Konfiguration in Zeile 1 erzielt (2 x n Themen je Äußerung, 5 Themen 
je Ontologie und 9 = 0,90). Auffallend ist, dass diese Konfiguration die restriktivste unter 
den getesteten ist; es werden sowohl wenig Themen-Etiketten zur Bestimmung der Ähnlichkeit 
Y Ace(Tu, To) zwischen Äußerung und Ontologie als auch ein hoher 6-Wert verwendet. Letzteres 
führt zu hohen Schwellenwerten bei der Auswahl der Ontologien (siehe [Gleichung 7.14). Dies 
führt wiederum zu insgesamt weniger ausgewählten Ontologien. Anscheinend führt eine präzise 


Auswahl der Ontologien gegenüber einer hohen Trefferrate zu insgesamt besseren Ergebnissen. Die 
ermittelten Werte für die beiden Metriken Präzision und Ausbeute bestätigen diese Vermutung. Die 
Ausbeute bleibt weitestgehend konstant und steigt nicht etwa für weniger restriktive Konfigurationen. 
Im Gegensatz dazu sinkt die Präzision deutlich, insbesondere für niedrige 0-Werte. Das bedeutet, 
werden mehr Ontologien ausgewählt sind diese zusätzlichen meist falsch, was auch die steigende 
Falsch-Positiv-Rate bestätigt. 


Eine Analyse der falsch positiven Ergebnisse ergab, dass in den meisten Fällen die fälschlicherweise 
ausgewählten viel mit den eigentlich richtigen Ontologien des Goldstandards gemeinsam hatten. Das 
bedeutet, sie beinhalten ähnliche oder gleiche Konzepte bzw. Individuen. So enthalten beispielsweise 
sowohl die Ontologie Bar als auch die Ontologie Küche die Individuen orange juice und fridge. 
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Tabelle 7.39: Werte für die Ausbeute bei der Umgebungsontologieauswahl für Äußerungen, die die Verwendung von 
mehr als einer Ontologie erfordern. 


Äußerung Gold-Standard tatsächlich ausgewählt Ausbeute 
Extra 3.1 Heizung + Musik Heizung 0,500 
Extra 3.2 Heizung + Musik Heizung 0,500 
Extra 8.1 Bar + Musik Bar 0,500 
Extra_8.2 Bar + Musik Bar + Musik 1,000 
Extra_9.1 Garten + Küche Garten 0,500 


Auch die falsch negativen Ergebnisse wurden untersucht. Diese lassen sich mehrheitlich auf Äuße- 


rungen zurückführen, die die Verwendung mehrerer Umgebungsontologien erfordern. |Tabelle 7.39 


zeigt eine Analyse dieser Äußerungen. Wie zu erkennen ist, wird in vier von fünf Fällen nur eine 
statt zwei Ontologien ausgewählt. Dies kann darauf zurückgeführt werden, dass bei der Generierung 
der Themen-Etiketten ein Themenbereich den anderen dominiert. Infolgedessen kann anschließend 
auch nur die Ähnlichkeit eines Themas der Äußerung zu den Ontologien ermittelt werden, weshalb 
auch immer eine passende Ontologie, aber eben nur diese ermittelt wird. Konkret können für 
diese Äußerungen nur 65,90% der Bedeutungen mit einem Thema der Ontologie in Verbindung 
gebracht werden. Den übrigen wird auf Sprachseite erst gar kein Thema zugewiesen. Im Vergleich 
dazu kann über alle Äußerungen hinweg für 95,79% der Bedeutungen eine Verbindung zu einem 
Ontologie-Thema hergestellt werden. 


Hinsichtlich der Auswahl von Zielsystemontologien besteht noch Verbesserungspotenzial; ohne die 
Adaption des Verfahrens kann keine Zielsystemontologie ermittelt werden (siehe[|Gleichung 7.15). 
Wie bereits zuvor diskutiert, ist es fast unmöglich, mit dem vorgestellten Verfahren Zielsyste- 
montologien zu ermitteln, da systemrelevante Begriffe in natürlichsprachlichen Äußerungen kaum 
auftreten. Mit der beschriebenen Adaption hingegen kann immer eine Zielsystemontologie bestimmt 
werden. Allerdings ist dies in 94% der Fälle der Haushaltsroboter. Auch wenn tatsächlich 25 der 33 
Äußerungen diesen als Zielsystem erfordern, ist die Auswahl anhand der Datentypen anscheinend 
unzureichend. Im konkreten Fall ist dies darin begründet, dass der Roboter in nahezu allen Umge- 
bungen operieren kann; das bedeutet, er ist mit fast allen Umgebungsontologien kompatibel und wird 
daher bevorzugt ausgewählt. Hier könnte ein verbesserte Evaluation (Zielsysteme mit unterschiedli- 
chen Datentypen und eine balancierte Menge von Äußerungen, die unterschiedliche Zielsysteme 
in ähnlicher Verteilung erfordern) Aufschluss darüber geben, ob es sich um ein konzeptionelles 
Problem handelt oder ob lediglich die Evaluationsdaten ungünstig gewählt wurden. 


Zusammenfassend lässt sich festhalten, dass der Ansatz zur automatischen Auswahl von Ontologien 
gute Ergebnisse liefert. Dies gilt insbesondere für Umgebungsontologien. Besonders positiv ist zu 
bewerten, dass die Auswahl in den meisten Fällen korrekt funktioniert, obwohl das Verfahren direkt 
von den nicht immer präzisen Ergebnissen des Agenten zur Modellierung und Etikettierung von 
Diskurs-Themen abhängt. Das bedeutet, dass der Ansatz auch mit unpräzisen Themen-Etiketten als 
Basis funktioniert, solange Zusammenhänge zwischen den Themen der natürlichsprachlichen Äuße- 
rung und denen der jeweiligen Ontologie hergestellt werden können. Erfordern Äußerungen mehrere 
Umgebungsontologien, Kann bisher nur eine der Ontologien zuverlässig bestimmt werden. Auch die 
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Auswahl der Zielsystemontologien anhand der Datentypen ist ausbaufähig. Zwar funktioniert das 
Verfahren prinzipiell; sind allerdings Systeme vorhanden, die mit vielen Umgebungen kompatibel 
sind, werden diese bevorzugt ausgewählt, selbst wenn ein anderes passender wäre. 


7.10 Dialog-Agent 


Die Erstellung von Quelltext ist ein kreativer und komplexer Schaffensprozess. Programmierende 
sind daher auf Rückmeldung angewiesen; selbst Kleine Programme gelingen selten auf Anhieb. Je 
besser die Rückmeldungen sind, die der Programmierende während der Erstellung seines Programms 
erhält, desto besser gelingt die Programmierung. Normalerweise erhält man bei der Entwicklung 
von Software Rückmeldung in Form von Warnungen oder Fehlermeldungen des Übersetzers (engl. 
compiler). Für die Programmierung mit gesprochener Sprache, wie sie in Prof, angestrebt wird, 
muss hingegen auch die Rückmeldung über die Sprachschnittstelle erfolgen. Das bedeutet, das System 
und der Nutzer treten in einen Dialog. Hierfür müssen alternative Riickmeldungsmechanismen 
entwickelt werden, denn klassische Fehlermeldungen können nicht (bzw. nur sehr schlecht) über 
eine Sprachschnittstelle kommuniziert werden. Zudem richtet sich Pro/,, an Programmierlaien, 
die herkömmliche Übersetzerwarnungen bzw. -fehlermeldungen nicht oder nur schwer interpretieren 
können. Die Rückmeldungen im Kontext der Programmierung mit gesprochener Sprache müssen 
also leicht verständlich sein. Außerdem sollten Rückfragen möglichst gezielt zur Lösung eines 
konkreten Problems gestellt werden. 


7.10.1 Eine Dialog-Komponente für Prof; 


Die zugrundeliegende Prämisse bei der Entwicklung der Dialog-Komponente für Prof, ist, dass 
die ursprüngliche Beschreibung des Nutzers zur Erzeugung des Programms genügt. Rückfragen 
sollen — soweit möglich — vermieden und nur dann gestellt werden, wenn Mehrdeutigkeiten oder 
Lücken nicht über den Kontext erschlossen werden können. Das bedeutet, die Dialog-Komponente 


soll dem Prinzip der Nutzerinitiative folgen (siehe Abschnitt 2.3.10). 


Die größte Herausforderung bei der Entwicklung einer Dialog-Komponente für die Programmierung 

mit gesprochener Sprache ist es, programmatische Strukturen für Laien verständlich zu verbalisieren. 

Zusätzlich muss die Komponente so entworfen werden, dass sie einfach erweiterbar ist; schließlich 

erlaubt Prog% jederzeit das Hinzufügen neuer Agenten. Neue Agenten erzeugen wiederum neue 
77 

Analyseergebnisse, die potenziell neuartige Rückfragen erfordern. Daher bietet sich im Kontext 


von Prof% eine regelbasierter Ansatz für die Dialog-Komponente an. In Abschnitt 2.3.10) wurde 


diskutiert, dass Forschungsprojekte vorrangig statistikbasierte Ansätze wählen, während industrielle 
Systeme zumeist regelbasiert sind. Auch wenn hier eine Dialog-Komponente für ein Forschungs- 
projekt entwickelt werden soll, ähneln die Randbedingung eher denen einer industriellen Lösung. 
Zunächst steht die hier entwickelte Dialog-Komponente nicht für sich, sondern muss in eine 
Rahmenarchitektur eingepasst werden. Das bedeutet, die Dialog-Komponente muss als Fließband- 


stufe oder Agent umgesetzt werden und Informationen aus dem Pro -Graphen entnehmen und 
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zurückschreiben können. Die Dialog-Komponente muss zudem einfach erweiterbar sein, da Pro? 
jederzeit neue Agenten oder Fließbandstufen hinzugefügt werden können. Jedes neue Modul kann 
potenziell mehrere neue Dialogsituationen erzeugen. Gleichzeitig sollen so wenige Rückfragen wie 
möglich gestellt und dem Nutzer die Initiative überlassen werden. Beides spricht eher für einen 
konservativen, robusten Entwurf. Zuletzt müssen die anderen Agenten die Ergebnisse eines Dialogs 
verwerten können; das bedeutet, die Ergebnisse müssen vorhersag- und nachvollziehbar sein. 


In [Abschnitt 2.3.10) wurden bereits die grundlegende Architektur der meisten Dialogsysteme 


vorgestellt. Dialogsysteme bestehen üblicherweise aus den folgenden Modulen: (automatische) 
Spracherkennung, Sprachverständnis, Dialog-Management, Antworterzeugung und Sprachsynthese. 
Diese Module müssen auch in der Dialog-Komponente für Pro/,, umgesetzt werden. Einige 
Module sind bereits Bestandteil von Pro/,, wie beispielsweise die automatische Spracherkennung 


(siehe Abschnitt 6.1), andere müssen geeignet in die Rahmenarchitektur integriert werden. 


7.10.2 Implementierung des Dialog-Agenten 


Die Dialog-Komponente für Prof, wurde als Agent implementiert [WHL18]°, Durch die 
Implementierung als Agent kann die Dialog-Komponente die Analysen der anderen Agenten nutzen. 


Gleichzeitig kann sie diesen neue Informationen zur Verfügung stellen, die gegebenenfalls neue 
Analyseschritte ermöglichen. 


Aufbau 


Für die Implementierung des Agenten sollen soweit wie möglich bereits vorhandene Ressourcen 


verwendet werden. Die ersten beiden der in Abbildung 2.15|dargestellten Module werden bereits von 


Prof% zur Verfügung gestellt. Pro, verfügt über eine Vorverarbeitungsstufe zur automatischen 
Spracherkennung (siehe/Abschnitt 6.1). Ein eigenes Spracherkennungsmodul für den Dialog-Agenten 
muss somit nicht implementiert werden. Das Verständnis natürlicher Sprache wird in Prof, durch 


das Zusammenspiel der Agenten bewerkstelligt; eine gesonderte Lösung für den Dialog-Agenten 
ist nicht nötig. Der Dialog-Agent kann das Vorverarbeitungsfließband und alle durch die Agenten 
erzeugten Informationen verwenden, und zwar nicht nur zur Interpretation der ursprünglichen 
Äußerung, sondern auch für etwaige Antworten. Je Nutzerantwort wird außerdem ein neuer (Antwort-) 
Graph erzeugt, der jedoch nur vom Dialog-Agenten interpretiert wird. Extrahierte Informationen 
werden dann wiederum im eigentlichen Pro, -Graphen hinterlegt. 


Das Dialog-Management wird zweiteilig umgesetzt. Zum einen beobachtet der Dialog-Agent 
dauerhaft den Proy,,,-Graphen, um mehrdeutige oder lückenhafte Analyseergebnisse der anderen 
Agenten zu identifizieren und Gesprächssituationen daraus abzuleiten. Können neue Informationen 
infolge eines Dialogs gewonnen werden, schreibt der Agent diese wieder in den Graphen zurück. 
Der Graph dient also als globales Dialog-Modell. Diese Art des Dialog-Managements allein ist 
allerdings unzureichend. Je nach Gesprächssituation kann es nötig sein, mehrere aufeinanderfolgende 


& Tatsächlich wird zusätzlich ein modifiziertes Vorverarbeitungsfließband verwendet, die eigentliche Anwendungslogik 


befindet sich jedoch im Agenten. Der genau Aufbau der einzelnen Bestandteile der Dialog-Komponente wird später 
erläutert. 
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Abbildung 7.22: Aufteilung der Module der Dialog-Komponente in bereits durch Pro, zur Verfügung gestellte und 
im Dialog-Agenten implementierte. 


Fragen zu stellen. In diesen Situationen muss der Zustand des Agenten bzw. der Gesprachssituation 
zusätzlich modelliert werden, um die Wiederholung gleichartiger Fragen und Gesprächssackgassen 
zu vermeiden. Daher verwaltet der Agent zusätzlich einen lokalen Zustand des Dialogs bis die 
jeweilige Gesprächssituation abgeschlossen ist und die jeweiligen Ergebnisse im globalen Modell 
hinterlegt wurden. 


Die Antworterzeugung und die Sprachsynthese sind Bestandteil der Implementierung des Dialog- 
Agenten. Erstere verwendet Satzschablonen, die mit aktuellen Werten befüllt werden. Um ein 
abwechslungsreiches Nutzungserlebnis zu ermöglichen, wurden für gleiche Gesprächssituationen 
mehrere Schablonen implementiert. Für die Sprachsynthese wird eine von IBM zur Verfügung 
gestellte Web-API verwendet: Watson — Text to Speech} Die Verteilung der Module der Dialog- 
Komponente auf bereits von Prog% zur Verfügung gestellte und im Dialog-Agenten implementierte 
ist in/Abbildung 7.22)dargestellt. 


Die wesentlichen Bestandteile des Dialog-Agenten sind das lokale Dialog-Management und die 
Antworterzeugung, die folgendermaßen umgesetzt werden. Es werden sogenannte Gesprächssitua- 
tionen (engl. dialog acts) definiert, die auf bestimmte Muster im Prof, ,-Graphen reagieren. Jede 
Gesprächssituation betrachtet eine potenzielle Fehlerquelle, Unvollständigkeit oder Unsicherheit 
in den Analyseergebnissen der anderen Agenten. Beispielsweise sind niedrige Konfidenzen bei 
der automatischen Spracherkennung ein Indiz für mögliche Wortfehler. Gesprächssituationen 
bestehen aus Indikatoren (Graphmuster, auf die sie reagieren sollen), sowie Informationen über 
das jeweilige lokale Dialog-Management und die Antworterzeugung. Durch die Kapselung in 
Gesprächssituationen ist der Dialog-Agent einfach erweiterbar. Wird eine neue potenzielle Feh- 
lerquelle bekannt, beispielsweise durch das Hinzufügen eines neuen Agenten, kann einfach eine 
neue Gesprächssituation implementiert werden, während der Rest der Logik des Dialog-Agenten 
unverändert bleibt. Die einzelnen Gesprächssituationen werden in einer Zuständigkeitskette (engl. 


chain of responsibility) organisiert [Gam+94]. Beginnend mit der ersten Gesprächssituation der 


Kette, überprüft jede Gesprächssituation den Graphen auf die definierten Indikatoren. Falls keins 
der Muster im Graph gefunden wird, übernimmt das nächste Kettenglied die Kontrolle. Wird jedoch 
eine Übereinstimmung detektiert, wird ein Dialog initiiert und die Gesprächssituation behält die 


6% Watson — Text to Speech: https://www. ibm. com/cloud/watson-text-to-speech) zuletzt besucht am 


24.02.2021. 
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Kontrolle, bis diese abgeschlossen ist (lokales Dialog-Management). Kann eine Gesprächssituation 
erfolgreich abgeschlossen werden, beginnt die Verarbeitung in der Zuständigkeitskette von vorne. 
Dabei kann es vorkommen, dass der erfolgreiche Abschluss einer Gesprächssituation eine andere 
ebenfalls löst. Zum Beispiel könnte ein im Dialog bereinigter Wortfehler (verursacht von der 
automatischen Spracherkennung) dazu führen, dass eine zuvor mehrdeutige Korreferenz in der Folge 
korrekt analysiert werden kann, ohne dass weitere Rückfragen nötig wären. Falls kein Indikator aller 
Gesprächssituationen erfüllt ist, wird davon ausgegangen, dass kein weiterer Dialog nötig ist. 


Gesprächssituationen 


Wie zuvor diskutiert, soll der Dialog-Agent reaktiv agieren. Hierzu wird das Konzept der Ge- 
sprächssituation eingeführt, um mögliche Problemquellen im Pro, ,-Graphen zu identifizieren, 
einen entsprechenden Dialog zu initiieren und die erhaltenen Informationen in den Graphen zu- 
rückzuschreiben. Das Konzept Gesprächssituation ist aus verwandten Arbeiten entliehen®| Dort 
bezeichnet eine Gesprächssituation (engl. dialog act) eine Äußerung, die eine Systemreaktion 
erfordert. Für den Dialog-Agenten wird diese Idee adaptiert und auf Graphmuster übertragen (die 
eine Reaktion erfordern). Beispielsweise weist ein niedriger Wert des Attributs asrConfidence in 
einem Knoten vom Typ Token darauf hin, dass an dieser Stelle ein potenzieller Wortfehler vorliegt 
(siehe [Abschnitt 6.1). Ein anderes Muster, das auf ein mögliches Problem hinweist, besteht aus 
einem Knoten vom Typ Token mit mehr als einer ausgehenden Kante vom Typ contextRelation, 


die zudem ähnliche Konfidenzen aufweisen. Hier handelt es sich um eine mehrdeutige Korreferenz 
(siehe|Abschnitt 7.5). Graphmuster, die eine Systemreaktion erfordern, werden im Folgenden als 
Indikatoren bezeichnet. Gesprächssituationen können mehrere Indikatoren zugeordnet werden. Zu 


jeder Gesprächssituation wurde zudem eine Dialog-Strategie entworfen, sodass dem Nutzer zur 
Situation passende Fragen gestellt werden. Die Dialog-Strategien sind als endlicher Zustandsautomat 
implementiert; jeder Zustandsübergang löst eine Systemreaktion aus; das bedeutet, dem Benutzer 
wird eine neue Frage gestellt. Innerhalb der Zustände wird jeweils die letzte Nutzeräußerung 
interpretiert. Die Eingangsaktion des Endzustands führt dazu, dass die aus dem Dialog extrahierten 
Informationen in den Pro /,,-Graphen zurückgeschrieben werden. Die konkreten Umsetzungen 
der Strategien werden im Folgenden als Dialog-Management bezeichnet. Die in den Zuständen 
definierten Fragen werden mithilfe von Schablonen erzeugt. Je Zustand kann es mehrere Schablonen 
geben, die zwar semantisch gleich, aber unterschiedlich formuliert sind. Die implementierten 
Schablonen werden im Folgenden unter dem Begriff Antworterzeugung diskutiert. 


Wie zuvor erläutert, impliziert jeder Agent potenziell mehrere Gesprächssituationen. Nicht alle 
lassen sich jedoch mit Indikatoren, wie oben beschrieben, fassen. Um die Umsetzbarkeit des 
entworfenen Konzepts zu belegen, wurden exemplarisch sechs Gesprächssituationen implementiert, 
die sich den Analyseergebnissen der Agenten zur Korreferenzanalyse und Erkennung von bedingten 
Verzweigungen sowie der Vorverarbeitungsstufe zur automatischen Spracherkennung zuordnen 
lassen. [Tabelle 7.40]listet die implementierten Gesprächssituationen und die jeweils zugehörigen 
Indikatoren. Im Folgenden werden die einzelnen Gesprächssituationen genauer erläutert. 


© Siehe hierzu beispielsweise die Arbeiten von Jokinen und McTear [JM09a] sowie Tur und De Mori |TD11]. 
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Tabelle 7.40: Implementierte Gesprächssituationen und zugehörige Indikatoren: Der Indikator viele Wortalternativen ist 
ausgegraut, da dieser zwar implementiert wurde, aber nicht verwendet werden sollte. 


Gesprächssituation Indikator 


: eringe Wortkonfidenz 
Spracherkennung unsicher u © i 
viele Wortalternativen 


Korreferenz mehrdeutig, ähnliche Konfidenzen unterschiedl. Referenzen 
unvollständig, Pronomen ohne Referenten 
oder unsicher geringe Konfidenz der einzigen Korreferenz 


Verzweigte Bedingung unvollständig bedingte Verzweigung ohne Dann-Gliedsatz 


Spracherkennungsunsicherheit 


Die automatische Spracherkennung bildet den ersten Schritt im Verarbeitungsprozesses von Prof). 
Alle nachfolgenden Analysen werden direkt oder indirekt von Wortfehlern in der Transkription 
beeinflusst. Daher ist die Korrektur dieser nicht nur besonders wichtig, sondern erübrigt gegebe- 
nenfalls weitere Korrekturen, da nachfolgende Analysen nach der Verbesserung eines Wortfehlers 


bessere Ergebnisse erzielen. 


Indikatoren — Wie Tabelle 7.40 zeigt, gibt es zwei Indikatoren für potenzielle Wortfehler der 


automatischen Spracherkennung: eine geringe Konfidenz, die der Erkenner dem Wort auf dem ersten 
Rang zugeordnet hat (primär erkanntes Wort), und viele durch den Erkenner erzeugte Alternativen 
zu einem Wort. Die Anzahl der erzeugten Alternativen hängt stark vom eingesetzten automatischen 
Spracherkenner, dessen Konfiguration] und vom Wort selbst ab] Aus diesem Grund wurde dieser 
Indikator zwar implementiert, sollte aber nicht verwendet werden. Für den Indikator, der sich auf 
die Konfidenz bezieht, wurde ein Schwellenwert festgelegt. Wann immer dieser konfigurierbare 
Schwellenwert unterschritten wird, soll ein Dialog initiiert werden. Der Einfluss des festgelegten 
Wertes auf das Ergebnis wird in’ Abschnitt 7.10.3)diskutiert. 


Dialog-Management — Für das Dialog-Management gilt es, geeignet nach potenziellen Wortfehlern 
zu fragen. Eine direkte Frage nach dem Wort selbst ist nicht möglich, da das Wort mehrfach 
in einer Äußerung auftreten kann und die Frage entsprechend mehrdeutig wäre. Auch die vom 
Spracherkenner erzeugten Alternativen sind nicht hilfreich, da es sich inhärent um Homophone 
handelt; eine Fragestellung, wie „Do you mean write or right?“, führt höchstwahrscheinlich zu 
keinem Erkenntnisgewinn. Daher wurde folgende Strategie entworfen: Der Nutzer wird gebeten, 
den Teil der Äußerung, der den potenziellen Wortfehler enthält, zu wiederholen. Anschließend 
wird im ersten Zustand des Dialog-Managements versucht, die Antwort an der ursprünglichen 
Aussage auszurichten. Die beiden Äußerungen werden anhand von Wörtern mit hohen Konfidenzen, 
die zudem gleich sind und an derselben Stelle stehen, ausgerichtet. Anschließend werden die 
fehlerhaften Wörter der ursprünglichen Äußerungen mit denen der Nutzerantwort ersetzt, sofern 
diese eine Konfidenz aufweisen, die über dem festgelegten Schwellenwert liegt. Falls die Antwort 


nicht ausgerichtet werden kann, wird in einen zweiten Zustand übergegangen und der Nutzer wird 


os Prof; erlaubt die Verwendung unterschiedlicher Spracherkenner, die zudem konfigurierbar sind (siehe/Abschnitt 6.1) 
© Besitzt ein Wort viele Homophone, steigt die Wahrscheinlichkeit eines Wortfehlers. 
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erneut aufgefordert, die ursprüngliche Äußerung exakt zu wiederholen. Falls auch dies scheitert, 
wird die Kontrolle an die nächste Gesprächssituation der Zuständigkeitskette abgegeben. 


In diesem Beispiel soll die Ausrichtung der Nutzerantwort an der ursprünglichen Äußerung 
und der Austausch der fehlerhaften Wörter demonstriert werden. In den Äußerungen sind 
pro Wort die Konfidenzen, die durch einen hypothetischen Spracherkenner erzeugt wurden, 
tiefgestellt angegeben. Als Schwellenwert für den Indikator wird im Beispiel 0,8 verwendet. 


Ursprüngliche Äußerung 

... Takeo,gı theo,g2 righto,72 frencho 52 ... 
Nutzerantwort 

... Takeo,9a theo 92 whiteo gs fridgeo.s1 «.. 


Erläuterung 


In der ursprünglichen Äußerung unterschreiten die Wörter right und french den Schwellenwert. 


Die wiederholte Äußerung des Nutzers lässt sich anhand der ersten beiden Wörter mit hoher 


Konfidenz an der ursprünglichen Äußerung ausrichten. Die letzten beiden Wörter unter- 
scheiden sich von denen der ursprünglichen Äußerung und überschreiten den Schwellenwert. 
Dementsprechend nehmen sie den Platz der ursprünglichen Wörter ein. 


Antworterzeugung — Wie zuvor beschrieben, soll der Nutzer dazu angeregt werden, den Teil der 
Aussage, für den ein Wortfehler vermutet wird, zu wiederholen. Hierzu werden Satzschablonen 
wie die folgende verwendet: „Please repeat the following part of your statement: [PART] “. Der 
zu wiederholende Abschnitt ([PART]) besteht aus allen Wörtern zwischen dem Anfang der 
Verbalphrase vor und dem Ende der Nominalphrase nach dem potenziell fehlerhaften Wort. Für die 
zweite Nachfrage wird lediglich der statische Teil der Satzschablone angepasst und der Nutzer wird 
darauf hingewiesen, die gleiche Formulierung, wie in der ursprünglichen Äußerung zu verwenden. 


Mehrdeutige, unvollständige oder unsichere Korreferenz 


Die Auflösung von Korreferenzen ist seit jeher eines der schwierigsten Probleme der klassischen 
Computerlinguistik und inhärent mit Unsicherheiten behaftet. Daher verwendet auch der zugehörige 
Pro/,-Agent ein mehrstufiges Bewertungssystem und erzeugt eine sortierte Kandidatenliste 
statt ein eindeutiges Ergebnis auszugeben. Daher können zweifelhafte Korreferenzen durch den 
Dialog-Agenten korrigiert werden. 
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Indikatoren — Wie in [Abschnitt 7.5| beschrieben, werden Korreferenzen in Proj,, wie folgt 


dargestellt: Eine Kante vom Typ contextRelation verbindet den Knoten, der den referenzierenden 
Ausdruck darstellt, mit einem potenziellen Referenten. Dabei kann es vorkommen, dass mehrere 
Kanten vom selben referenzierenden Ausdruck ausgehen. Jede dieser Kanten verfügt über ein 
Attribut, das die Konfidenz für die jeweilige Korreferenzbeziehung angibt. Dieses Analyseergebnis 
birgt drei mögliche Fehlerquellen. Zunächst kann eine Korreferenz fehlen. Ein Indikator hierfür 
ist ein Personalpronomen (als referenzierender Ausdruck), das keine ausgehende Kante vom Typ 
contextRelation besitzt. Des Weiteren können Korreferenzbeziehungen uneindeutig sein. Dies 
ist der Fall, wenn es mehr als eine ausgehende Kante vom Typ contextRelation gibt, deren 
Konfidenzen ähnlich hoch sind®®] Zuletzt kann eine Korreferenzbeziehung unsicher sein, und zwar 
dann, wenn es nur eine Kante vom Typ contextRelation gibt und die zugehörige Konfidenz 
niedrig ist®] 

Dialog-Management — Laien ist das Konzept Korreferenz üblicherweise unbekannt; eine Abfrage 
potenzieller Korreferenz-Kandidaten ist somit nicht möglich. Direkte Fragen, wie „Does it refer to 
X?“, sind auch nicht möglich, da ir und X unter Umständen mehrfach in der Äußerung auftreten. 
Stattdessen wird wie folgt verfahren: Es wird der Teil der Äußerung wiederholt, der sowohl den 
referenzierenden Ausdruck als auch die möglichen Referenten enthält. Anschließend wird der 
Nutzer gefragt, auf welchen Referenten sich der referenzierende Ausdruck bezieht. Der Vorteil 
dieses Vorgehens ist, dass so direkt alle zuvor beschriebenen Problemquellen abgedeckt werden. Zur 
Interpretation der Nutzerantwort wird diese wiederum an der ursprünglichen Äußerung ausgerichtet. 
Falls dies nicht möglich ist, wird in den nächsten Zustand übergegangen. Hier werden dem Nutzer 
erneut alle potenziellen Referenten genannt. Bleibt auch dies erfolglos, wird im letzten Zustand 
einzeln nach den Kandidaten gefragt. 


Antworterzeugung — Um den Nutzer nach der korrekten Korreferenz zu fragen, werden zunächst 
der zugehörige referenzierende Ausdruck ([REF_EX]) und die potenziellen Referenten ( [LIST_RT]) 
extrahiert. Anschließend werden alle Phrasen zwischen diesen Ausdrücken sowie die Phrasen, 
zu denen die Ausdrücke gehören, bestimmt ([ENCL_PHRASES]). Daraufhin werden Schablonen 
wie die folgende verwendet, um die Information zu erfragen: ,,In the following, what does the 
word [REF_EX] refer to? [ENCL_PHRASES] .“ Im zweiten Zustand werden andersartige Schablonen 
verwendet: „I don’t understand. You’ve mentioned | [LIST_RT]| entities. Now, please tell me what 
does the [REF_EX] refer to, [LIST_RT]o,y—1, or [LIST_RT] y?“ Falls keine Liste potenzieller 
Referent-Kandidaten existiert (im Falle eines Personalpronomens ohne Korreferenz), wird nur die 
erste Frage inklusive bis zu zwei einschließenden Phrasen gestellt. 


Unvollständige bedingte Verzweigung 


Die Erkennung bedingter Verzweigungen wird im zugehörigen Agenten auf das grammatikalische 


Konstrukt der Bedingungssätze zurückgeführt (siehe Abschnitt 7.6). Diese folgen jedoch keiner 


einheitlichen Syntax; der beschriebene Ansatz funktioniert dementsprechend nicht in allen Fällen, 
gegebenenfalls werden Konditional- oder abhängige Gliedsätze nicht (bzw. nicht vollständig) 


68 Welche Differenz (der Konfidenzen) als Indikator wirkt, Kann konfiguriert werden. 


® Auch dieser Schwellenwert kann konfiguriert werden. 


283 


7 Agenten für Sprachverständnis 


erkannt. Prinzipiell könnten hier mehrere Gesprächssituationen zu potenziellen Fehlerquellen 
abgeleitet werden. Wie in [Abschnitt 7.6. 1]diskutiert, ist die Länge der Gliedsätze unbeschränkt; 
die Vollständigkeit lässt sich daher kaum prüfen. Ebenso genügt für einen natürlichsprachlichen 
Bedingungssatz das Vorhandensein eines Dann-Gliedsatzes, Andernfalls-Gliedsätze sind optional. 
Das bedeutet, die einzig überprüfbare Fehlerquelle ist ein Konditionalsatz dem kein Dann-Gliedsatz 
zugeordnet werden kann. 


Indikatoren — Der einzige Indikator für diese Gesprächssituation ist das Fehlen eines Dann- 
Gliedsatzes. Wurden in einer Äußerung ein oder mehrere Konditionalsätze erkannt, muss jedem 
genau ein Dann-Gliedsatz zugeordnet sein (zu erkennen an einer Kante vom Typ statement, siehe 
[Abschnitt 7.6.1). Ist dies nicht der Fall, wird für jede dieser Fehlerstellen ein Dialog initiiert. 


Dialog-Management — Das Dialog-Management soll den Nutzer dazu veranlassen, den fehlenden 
Dann-Gliedsatz anzugeben; es werden die folgenden Schritte durchgeführt: Zunächst wird der Nutzer 
gebeten, die Instruktionen, die den Dann-Gliedsatz bilden, zu wiederholen. Falls die Antwort an der 
ursprünglichen Äußerung ausgerichtet werden kann, werden die entsprechenden Instruktionen in 
den Proy,,-Graphen eingefügt. Falls nicht, wird in den nächsten Zustand übergegangen. Nun wird 
der Konditionalsatz wiederholt und der Nutzer wird direkt gefragt, welche Aktionen durchgeführt 
werden sollen, wenn diese Bedingung zutrifft. Falls die entsprechenden Informationen erneut nicht 
aus der Antwort gewonnen werden können, wird in einen weiteren Zustand übergegangen, indem 
dieselbe Frage mit einer anderen Formulierung wiederholt wird. Schlägt auch das fehl, Kann die 
Gesprächssituation nicht erfolgreich abgeschlossen werden und die Kontrolle wird an das nächste 
Glied der Zuständigkeitskette übergeben. 


Antworterzeugung — Für die Antworterzeugung wird der Konditionalsatz, dem kein Dann-Gliedsatz 
zugeordnet werden konnte, aus der Äußerung extrahiert ([IF_PART]). Zusätzlich werden alle 
nachfolgenden Phrasen (bis hin zum nächsten Konditionalsatz) extrahiert; diese gehören potenziell 
zum Dann-Gliedsatz (LPOT_THEN_PART] ). Letztere werden in die Schablonen, die für die Fragen im 
ersten Zustand des Dialog-Managements verwendet werden, eingesetzt, wie zum Beispiel: „Please 
just say the then condition of the following part again: [POT_THEN_PART].“ Schablonen, die im 
zweiten Zustand verwendet werden, sind wie folgt formuliert: „Please just repeat the part, which 
tells me what I have to do if the condition is true. Your words were: [POT_THEN_PART] .“ Für den 
letzten Zustand werden Schablonen folgender Art verwendet: „Please repeat the instruction in your 
statement, if the following condition is satisfied: [IF_PART] .“ 


7.10.3 Evaluation des Dialog-Agenten 


Die Evaluation des Dialog-Agenten basiert auf den Dialog-Aufzeichnungen des Pro/,,-Korpus 
(siehe Abschnitt 5.5.2). Zum einen existieren Dialog-Aufzeichnungen zu je einer Äußerung zu 
den Szenarien vier und sechs. Hier wurden bereits aufgezeichnete Äußerungen zur Evaluation des 
Agenten genutzt, indem zu diesen Nachfragen formuliert wurden. Das Szenario acht hingegen 
besteht ausschließlich aus Dialog-Aufzeichnungen. Hier wurden neue Gesprächssituationen initiiert. 
Zu allen Szenarien existieren je zehn Dialog-Aufzeichnungen, das heißt, in Summe 30. 
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Die Äußerungen zu Szenario vier enthalten verbalisierte bedingte Verzweigungen. Für die Evaluation 
des Dialog-Agenten wurde eine Äußerung verwendet für die der Agent zur Erkennung von bedingten 
Verzweigungen keinen Dann-Gliedsatz zu einem Konditionalsatz zuweisen konnte} 


Hi robo, please look at the table, if there are dirty dishes please put it in the dishwasher 
and if there are clean dishes put it in the cupboard. 


Ähnlich verhält es sich für die Auswahl der Äußerung zu Szenario sechs. Hier wurde eine Äußerung 


verwendet, bei der eine Korreferenz falsch und eine weitere nicht eindeutig aufgelöst wurde: 


Hey Armar, can you please get the green cup from the table, it is located quite in the 
middle, please fill it afterwards with water from the fridge, the water is in the fridge 
right next to the orange juice, then you can bring the cup to me. Afterwards empty the 
dishwasher, there are red cups in there, so you have to open it and then put them into 
the cupboard. 


Der Vorteil der Verwendung bestehender Aufnahmen gegenüber einem freien Dialog besteht darin, 
dass die Fehlerquellen und die erwarteten Lösungen vorab bekannt sind. Somit kann der Erfolg 
eines geführten Dialogs objektiv bemessen und über unterschiedliche Dialog-Aufzeichnungen 
verglichen werden. Nichtsdestotrotz soll zusätzlich bemessen werden, wie sich der Agent im freien 
Dialog verhält. Hierfür dienen die Aufzeichnungen zu Szenario ach{”!| Auch diese enthalten 
potenziell unvollständige bedingte Verzweigungen und mehrdeutige oder fehlende Korreferenzen. 
Zur Bemessung der Auflösung von Spracherkennungsunsicherheiten werden die Aufzeichnungen 
zu den Szenarien sechs und acht verwendet; die gewählte Aufzeichnung zu Szenario vier enthält 
schlicht keine Spracherkennungsunsicherheiten. 


Um die Evaluation durchzuführen, wird der Dialog-Agent mit den Analyseergebnissen der anderen 
Pro/,-Agenten konfrontiert. Für die (bereits vorhandenen) Aufnahmen zu den Szenarien vier und 
sechs bedeutet dies, dass die aufgezeichneten Analyseergebnisse (in Form von Pro, -Graphen) 


der jeweiligen Evaluationen verwendet werden (siehe Abschnitt 7.5.3)und|Abschnitt 7.6.5). Im Fall 


von Szenario acht, beschreiben die Probanden zunächst ihre initialen Befehle, Prog]? analysiert 


die Äußerungen und der Dialog-Agent stellt Rückfragen, falls einer der implementierten Indikatoren 
anschlägt. 


Um die Qualität des Dialog-Agenten möglichst realistisch bemessen zu können, wurden für alle 
Szenarien auch alle implementierten Gesprächssituationen verwendet und nicht nur die jeweils 
passender] | Sie werden in folgender Reihenfolge zur Zuständigkeitskette hinzugefügt: Spracher- 
kennungsunsicherheit, mehrdeutige, unvollständige oder unsichere Korreferenz und unvollständige 
bedingte Verzweigung. Wie zuvor beschrieben, kann die Verwendung der Zuständigkeitskette dazu 
führen, dass Gesprächssituationen zu Beginn der Kette, die erfolgreich abgeschlossen werden, spätere 
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In die Transkriptionen wurden Satzzeichen injiziert, um den Studienteilnehmern das Textverständnis zu erleichtern. 
Die Szenariobeschreibung für das achte Szenario befindet sich im Anhang in) Abschnitt C.1.6 
Es werden das vollständige Vorverarbeitungsfließband und alle zuvor beschriebenen Agenten verwendet. 

Dies kann gegebenenfalls dazu führen, dass Indikatoren anschlagen, obwohl die zugehörige Gesprächssituation gar 
nicht erforderlich wäre. Im praktischen Einsatz können potenzielle Fehler jedoch auch nicht vorab ausgeschlossen 
werden, weshalb immer alle Gesprächssituationen verwendet werden sollten. 
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Tabelle 7.41: Einfluss unterschiedlicher Schwellenwerte auf die Treffsicherheit des Indikators zur Erkennung von 
Spracherkennungsunsicherheiten. 

Schwellenwert 0,70 0,75 0,80 0,85 0,90 0,95 

Ausbeute 0,714 0,730 0,722 0,655 0,624 0,566 

Prazision 0,476 0,548 0,619 0,679 0,750 0,821 

Fy 0,571 0,626 0,667 0,667 0,681 0,670 

Genauigkeit 0,847 0,860 0,868 0,855 0,850 0,827 


Gesprächssituationen obsolet werden lassen. Dieses Verhalten ist zwar erwünscht, führt aber auch 
dazu, dass die Anzahl der initiierten Gesprächssituationen je Dialog-Aufzeichnung unterschiedlich 
ist. Dies gilt für alle Szenarien. Für die Gesprächssituation Spracherkennungsunsicherheit wurde 
der Einfluss des Schwellenwertes, sowie der Erfolg der geführten Dialoge bemessen. Bei den 
mehrdeutigen, unvollständigen oder unsicheren Korreferenzen wurde hingegen nur der Erfolg der 
Dialogführung bewertet; dasselbe gilt für unvollständige bedingte Verzweigung. Im Folgenden 
werden die Evaluationsergebnisse für die einzelnen Gesprächssituationen diskutiert. 


Spracherkennungsunsicherheit 


Für die Evaluation der Gesprächssituation Spracherkennungsunsicherheit werden Äußerungen aus 
den Szenarien sechs und acht evaluiert; die Äußerung aus Szenario vier wird nicht betrachtet, da 
diese keine Spracherkennungsunsicherheit enthält. Zur Evaluation wird zum einen der Schwellenwert 
systematisch variiert ([0,70; 0,95] mit einer Schrittweite von 0,05) und der Einfluss auf den erfolg- 
reichen Abschluss des Dialogs bemessen. Zum anderen wird bemessen, wie viele Unsicherheiten 
aufgelöst (im Falle eines Wortfehlers) oder verifiziert werden konnten (falls das Wort zwar korrekt 
erkannt wurde, die Konfidenz aber unter dem Schwellenwert lag). Zusätzlich wird bestimmt, wie 
viele neue Fehler durch die Gesprächssituation hinzugefügt wurden und wie viele Dialogschritte, 
das bedeutet, Rückfragen des Agenten, nötig sind, um die Unsicherheit aufzulösen. 


Um den Einfluss des Schwellenwertes als Indikator zu bemessen, wurden zunächst alle Wortfehler in 
den Äußerungen händisch annotiert. Anhand dieser Musterlösung können die Präzision, Ausbeute und 
das Fı-Maß und Genauigkeit für den Indikator bestimmt werder”*] Die Ergebnisse sind in|Tabelle 7.41] 
gelistet. Wie zu erwarten war, beeinflusst die Wahl des Schwellenwertes die Präzision und Ausbeute 
deutlich; wie üblich, steigt die Präzision bei einer höher gewählten Schwelle, gleichzeitig sinkt aber 
die Ausbeute. Die Genauigkeit hingegen verändert sich kaum und erreicht durchgängig hohe Werte 
(ca. 85%). Dieses Ergebnis ist insofern positiv zu bewerten, als in die Berechnung der Genauigkeit 
auch die richtig negativen einfließen (siehe/Abschnitt 2.4.4). Für einen Indikator, der potenzielle 
Fehlerfälle anzeigen soll, ist eine hohe Anzahl richtig negativer Ergebnisse wünschenswert. 


Dementsprechend ist die Genauigkeit das entscheidende Auswahlkriterium für den Schwellenwert. 
Die beste Genauigkeit wird mit 0,868 bei einem Schwellenwert von 0,80 erreicht; dieser wird als 
Standardkonfiguration gewählt und auch in den nachfolgenden Evaluationsbetrachtungen verwendet. 


™  Ergebnisklassen: richtig-positiv — Indikator schlägt aufgrund des Schwellenwertes an und es handelt sich um einen 


Wortfehler; falsch-positiv — Indikator schlägt an, es handelt sich aber nicht um einen Wortfehler; richtig-negativ — 
Indikator schlägt nicht an und es handelt sich um keinen Wortfehler; falsch-negativ— Indikator schlägt nicht an, es 
handelt sich aber um einen Wortfehler 
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Tabelle 7.42: Evaluationsergebnisse für die Gesprächssituation Spracherkennungsunsicherheit. 


Szenario acht Szenario sechs 


# Gesprächssituationen begonnen 44 33 
# Gesprächssituationen erfolgreich abgeschl. 11 12 
# gestellte Fragen 80 58 
# verifizierte Aussagen 6 11 
# gelöste Fehler 4 1 
# neu erzeugte Fehler 1 0 
Fehlerrate 0,02 0,00 
Erfolgsrate 0,25 0,36 
Lösungsrate 0,23 0,36 


Der Erfolg von initiierten Gesprächssituationen wird wiederum anhand der Äußerungen aus den 
Szenarien sechs und acht bemessen. Folgende Metriken werden verwendet: die Erfolgsrate (engl. 
success rate), welche angibt, wie viele Gesprächssituationen mit einer Änderung des Proy,,- 
Graphen abgeschlossen wurden (unabhängig davon, ob diese Änderung korrekt ist oder nicht), die 
Lösungsrate (engl. resolution rate), welche angibt, wie viele tatsächliche Fehler oder Unsicherheiten 
korrekt gelöst werden konnten und die Fehlerrate (engl. error rate), welche angibt, wie viele 


zusätzliche Fehler erzeugt wurden. Die erzielten Ergebnisse sind in Tabelle 7.42|aufgefiihrt. 


In Summe liegen die Konfidenzen von 77 Wörtern unter dem Schwellenwert von 0,80; ebenso 
viele Gesprächssituationen wurden dementsprechend initiiert. Von diesen konnten 23 erfolgreich 
abgeschlossen werden, siebzehn führten zur Bestätigung eines bereits zuvor richtig erkannten 
Wortes, fünf zu einer Korrektur eines Wortfehlers. In Summe wurden vom Agenten 58 Fragen 
zu Spracherkennungsunsicherheiten in Szenario sechs gestellt, 80 in Szenario acht; das bedeutet, 
durchschnittlich 1,8 pro Gesprächssituation. Allerdings wurden alle erfolgreich abgeschlossenen 
Gesprächssituationen mit nur einer Rückfrage gelöst. Einerseits konnten so zwar nur 29% der 
vorhandenen potenziellen Fehlerstellen korrigiert oder verifiziert werden. Andererseits wurde auch 
nur ein zusätzlicher Fehler erzeugt. Diese Ergebnisse zeigen, wie schwierig es ist, Wortkorrekturen 
direkt zu erfragen. In einigen Fällen interpretierten die Probanden die Rückfragen des Agenten 
falsch und formulierten die gesamte Äußerung um, was dazu führt, dass die Antwort nicht an der 
ursprünglichen Äußerung ausgerichtet werden und der Dialog nicht erfolgreich beendet werden 
kann. In Zukunft sollte dementsprechend das Dialog-Management und die Antworterzeugung dieser 
Gesprächssituation überarbeitet werden, um die Erfolgsrate zu erhöhen. 


Mehrdeutige, unvollständige oder unsichere Korreferenz 


Diese Gesprächssituation wird anhand der Äußerung aus Szenario sechs evaluiert. Die Transkription 
enthält zwei uneindeutige Korreferenzen. Die erste ist eine Anapher, bestehend aus dem referenzie- 
renden Ausdruck you und zwei potenziellen Referenten: einem vorangegangen Vorkommen von you 
und dem Eigennamen Philip. Letzteres ist lediglich ein durch den automatischen Spracherkenner 
erzeugter Wortfehler; eigentlich gemeint war an dieser Stelle fill it. Dementsprechend ist der 
korrekte Referent you. Diese Art von Fehler ist ein gutes Beispiel, um den Vorteil der Verwendung 
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Tabelle 7.43: Evaluationsergebnisse für die Gesprächssituation mehrdeutige, unvollständige oder unsichere Korreferenz. 


you — you it—greencup )) 
Auflösungsquote 0,40 0,60 0,50 
Ø Fragen 2,00 1,50 1,75 


Tabelle 7.44: Evaluationsergebnisse für die Gesprächssituation unvollständige bedingte Verzweigung. 


Quote Ø Fragen 
Erfolg 1,00 1,10 
Auflösung 0,30 1,33 


der Zuständigkeitskette zu verdeutlichen. Wird der Wortfehler bereits durch die vorausgehende 
Gesprächssituation Spracherkennungsunsicherheit korrigiert, kann die Korreferenz bereits eindeutig 
aufgelöst werden und es muss kein zusätzlicher Dialog initiiert werden. Die zweite Korreferenz 
besteht aus dem referenzierenden Ausdruck it und den potenziellen Referenten green cup, table und 
Armar, wobei green cup die korrekte Lösung darstellt. 


Die Ergebnisse dieser Evaluation sind in Tabelle 7.43 aufgeftihrt. Erneut wird jeweils die Lösungsrate 


angegeben. Für die erste mehrdeutige Korreferenz beträgt diese 4017| Zur Auflösung wurden vom 
Agenten im Mittel zwei Rückfragen gestellt. Die Lösungsrate für die zweite Korreferenz beträgt 
sogar 60%; hier stellte der Agent im Schnitt lediglich 1,5 Rückfragen an die Probanden. Diese 
Ergebnisse sind als gut zu bewerten, da es sich bei der Auflösung von Korreferenzen um einen 
komplexen Sachverhalt handelt, der nur schwierig im Rahmen eines Dialogs vermittelt werden kann. 


Unvollständige bedingte Verzweigung 


Die Gesprächssituation unvollständige bedingte Verzweigung wird anhand einer Äußerung aus 
Szenario vier evaluiert. Diese enthält eine unvollständige Verzweigungsstruktur; der Agent zur 
Erkennung von bedingte Verzweigungen hat lediglich die Bedingung erkannt, der zugehörige 
Dann-Gliedsatz konnte nicht ermittelt werden. 


Tabelle 7.44| zeigt die erzielten Ergebnisse; es werden dieselben Metriken wie zuvor verwendet. 


Die Erfolgsrate von 100% zeigt, dass die Probanden alle Rückfragen des Agenten beantworten 
und alle Gesprächssituationen somit erfolgreich abgeschlossen werden konnten. Allerdings führten 
nur 30% der Antworten zu einer korrekten Lösung der Situation. Im Großteil der übrigen Fälle 
wiederholten die Probanden die vollständige Kontrollstruktur in ihren Antworten. In der Folge 
wurde die komplette Antwort vom Agenten als Dann-Gliedsatz in den Pro y,-Graphen eingesetzt. 
Dieser Ausgang ist unerwünscht, kann zukünftig aber durch ein verbessertes Dialog-Management 
für diese Gesprächssituation vermieden werden; beispielsweise könnte beim Ausrichten der Ant- 
wort an die ursprüngliche Äußerung der Konditionalsatz ausgeschlossen werden. Auch wenn die 
Erfolgsrate für diese Gesprächssituation schlechter ausfällt, so konnte doch gezeigt werden, dass der 
Ansatz erfolgversprechend ist, immerhin handelt sich um eine programmatische Struktur, die im 
natürlichsprachlichen Dialog mit Laien vervollständigt werden musste. 


® In zehn Dialogen konnten insgesamt acht von zwanzig fehlerhaften Korreferenzen korrigiert werden. 
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7.11 Funktionswächter-Agenten 


Die Architektur PARSE sieht vor, dass Agenten innerhalb der Einheit zur Analyse der Semantik 
parallel und wiederholt ausgeführt werden (siehe|Abschnitt 4.2.4). Das bedeutet, die Analysen der in 
den vorangegangen Abschnitten dieses Kapitels beschriebenen Agenten werden theoretisch beliebig 
oft wiederholt. Damit die semantische Analyse dennoch zu einem endgültigen Ergebnis gelangt, 
muss die Verarbeitung durch die Agenten kontrolliert beendet werden. Die Rahmenarchitektur 
Luna, die auch für die Ausführung der Agenten zuständig ist, verfügt über einen Mechanismus, 
um den Agenten mitzuteilen, dass sie ihre Ausführung beenden sollen. Hierzu versendet Luna 


ein Terminierungs-Event an alle Agenten (siehe |Abschnitt 4.2.5). Neben diesem Mechanismus 


werden Kriterien benötigt, anhand derer entschieden wird, wann die Verarbeitung beendet wird. 
Statt Abbruchkriterien direkt innerhalb der Rahmenarchitektur zu hinterlegen, wird auch hierfür der 
agentenbasierte Ansatz verfolgt. PARSE ermöglicht die Verwendung sogenannter Funktionswächter- 
Agenten (engl. watchdog agent). Diese entsprechen in ihrer Funktionsweise normalen Agenten; 
allerdings können die Funktionswächter-Agenten einen speziellen Knotentypen erzeugen ó| Das 
Vorhandensein des Knotentyps signalisiert der Rahmenarchitektur, dass ein Terminierungs-Event 
ausgelöst werden soll. Durch diesen Mechanismus können konkrete Funktionswächter-Agenten 
dafür genutzt werden, jeweils unabhängig voneinander ein bestimmtes Abbruchkriterium zu 
prüfen; sobald das Kriterium erfüllt ist, erzeugt der Agent den Knotentypen. Die Verwendung 
von Funktionswächter-Agenten erlaubt es, beliebige Kombinationen von Abbruchbedingungen zu 
verwenden. 


Prinzipiell können in den Agenten beliebige Abbruchbedingungen implementiert werden. Es bietet 
sich jedoch an, Abbruchbedingungen zu definieren, die vom Zustand des Pro, -Graphen abhängen, 
da dieser den aktuellen Fortschritt bei der Analyse der Semantik darstellt. Für Proy/, wurden 
zunächst drei Funktionswächter-Agenten entwickelt, die folgende Kriterien prüfen: 


e Zeitüberschreitung: Der Agent prüft, ob die Gesamtausführungszeit von Pro, eine kon- 
figurierbare Schranke überschreitet. Es empfiehlt sich, diesen Funktionswächter-Agenten 
in jeder Konfiguration zu verwenden, damit die Terminierung der Einheit zur Analyse der 
Semantik sichergestellt ist. Außerdem erzeugt die Berechnung des Abbruchkriteriums nur 
einen geringen Mehraufwand. 


Keine Änderung: Der Agent prüft, wie viel Zeit seit der letzten Änderung des Proy,,- 
Graphen vergangen ist. Überschreitet dieser Wert eine konfigurierbare Schranke, wird der 
Knotentyp zur Signalisierung der Terminierung erzeugt. Die Schranke dieses Agenten muss 
sorgfältig gewählt werden (und gegebenenfalls auf die ausführende Plattform angepasst 
werden). Einerseits sollte die Schranke größer als die maximale Ausführungszeit des Agenten 
mit der längsten Ausführungszeit gewählt werden, da andernfalls der entsprechende Agent 
seine Analysen nie vollständig durchführen kann’”| Anderseits sollte die Schranke kleiner als 
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Der zu verwendende Knotentyp wird vorab per Konfiguration systemweit festgelegt. 
Die Ausführungszeit eines Agenten kann abgeschätzt werden, indem dieser separat mit üblichen bzw. erwartbaren 
Eingaben (das heißt natürlichsprachlichen Äußerungen) ausgeführt wird. 
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die Schranke des Funktionswächter-Agenten zur Prüfung einer Zeitüberschreitung gewählt 
werden (falls dieser verwendet wird), da andernfalls kein Mehrwert gegenüber diesem 
(einfacheren) Abbruchkriterium entsteht. 


Zyklische Änderung: Der Agent prüft, ob die Änderungen, welche die Agenten im Pro4/;- 
Graphen hinterlegen, zyklisch sind”®] Durch zyklische Änderungen wird ein Pseudo-Fortschritt 
erzeugt, da sich der Graph kontinuierlich ändert, allerdings keine neuen Informationen 
hinterlegt werden. Zur Erkennung von zyklischen Änderungen vergleicht der Agent die n 
letzten Graph-Zustände, wobei n frei konfiguriert werden kann. Sind zwei der letzten n Graphen 
identisch”?| liegt ein Zyklus vor und der Knotentyp zur Signalisierung der Terminierung wird 
erzeugt. Dementsprechend sollte n größer gleich drei gewählt werden, da mindestens der 
Vergleich der letzten drei Graph-Zustände nötig ist, um einen Zyklus zu erkennen. 


Wird eines der Kriterien erfüllt, erzeugt der Agent den Knotentypen, der die Beendigung signalisiert. 


Durch diese Änderung im Graphen wird dieser auch als aktueller Graph in der Rahmenarchi- 


tektur hinterlegt. Diese erkennt, dass der signalisierende Knotentyp enthalten ist und versendet 


wiederum das Terminierungs-Events an alle Agenten. Diese beenden daraufhin eigenständig ihre 


Ausführung. Sobald alle Agenten beendet wurden, wird der Pro/,-Graph an die erste Stufe des 


Nachverarbeitungsfließbands weitergereicht und die Nachverarbeitung begonnen. 
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Beispielsweise könnte ein Agent A eine neue Kante im Graphen hinterlegen. Ein Agent B entfernt ebendiese Kante 
aus dem Graphen, A fügt diese im nächsten Aufrufzyklus erneut hinzu und so weiter. 
Aus Effizienzgründen erfolgt der Vergleich der Graphen anhand ihres Hash-Codes. Dieser wird analog zur Gleichheit 


berechnet (siehe Abschnitt 4.2.2.2). 
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„Großes wird durch eine Reihe von kleinen Dingen erreicht, 


die zusammenkommen. “ 


— Vincent Van Gogh 


Mit der Beendigung der Agenten durch ein Signal eines Wächteragenten beginnt die Nachverarbei- 


tungsphase von Proy/_,. Wie in, Abschnitt 4.2.3\erläutert, sieht PARSE für die Nachverarbeitung 
die Verwendung eines Fließbandes vor. Die Stufen sollen dazu genutzt werden, die Analyseer- 


gebnisse, das heißt den Graphen, zu interpretieren. Für Pro, bedeutet das, der Graph wird als 
Programm interpretiert und es soll Quelltext für ein Zielsystem erzeugt werden. Zur Nachverarbei- 
tung des Pro/f,,-Graphen wurden vier Fließbandstufen entwickelt, die den Graphen schrittweise in 
ausführbaren Quelltext überführen: 


1. Generierung eines abstrakten Syntaxbaumes (Abschnitt 8.1) 


2. Extraktion des abstrakten Syntaxbaumes (Abschnitt 8.2) 
3. Erzeugung von Quelltext (Abschnitt 8.3) 
4. Injektion des Quelltexts in Schablonen (Abschnitt 8.4) 


Zunächst wird ein abstrakter Syntaxbaum (engl. abstract syntax tree, kurz AST) |Aho+06] anhand 


der im Graphen enthaltenen Informationen generiert und in den Pro/,-Graphen eingepflegt. 
Anschließend wird der abstrakte Syntaxbaum aus dem Graphen ausgelesen | In der dritten Stufe 
wird Quelltext in einer konkreten Programmiersprache erzeugt und das Generat schließlich in der 
vierten Stufe in eine Zielsystem-spezifische Schablone eingefügt. 


Die Aufgliederung der Nachverarbeitung in diese vier Schritte hat den Vorteil, dass das Hinzufügen 
neuer Zielsysteme mit geringem Aufwand verbunden ist. Nur die letzte Stufe hängt direkt vom 
Zielsystem ab; für jedes Zielsystem muss vorab eine Schablone definiert werden. Die Generierung 
(und Extraktion) des AST ist völlig unabhängig von der verwendeten Programmiersprache und dem 
Zielsystem. Auch für die dritte Stufe muss nur je Programmiersprache ein Generator bereitgestellt 
werden. 


' Durch die Trennung von Generierung und Extraktion des AST kann die erste Fließbandstufe auch verwendet werden, 


falls anschließend in einer zusätzlichen Stufe weitere Analysen anhand des vollständigen Graphen durchgeführt 
werden sollen. 
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8.1 Generierung des abstrakten Syntaxbaumes 


In der ersten Stufe des Nachverarbeitungsfließbandes soll ein abstrakter Syntaxbaum generiert 
und in den Proy,,-Graphen integriert werden. Die Generierung erfolgt anhand der durch die 


Agenten erzeugten Informationen (siehe Kapitel 7). Für Pro, werden abstrakte Syntaxbäume als 


Zwischenrepräsentation genutzt, da diese eine universelle Darstellung des Programms bieten, die 
unabhängig von der verwendeten Programmiersprache und dem Zielsystem ist. 


Nur zwei der in Kapitel 3|diskutierten verwandten Ansätze thematisieren abstrakte Syntaxbäume 


explizit. Rabinovich et al. entwerfen sogenannte abstrakte Syntaxnetze, die konzeptionell an abstrakte 


Syntaxbäume angelehnt sind [RSK17]. Ihr Ansatz sieht vor, ein LSTM so zu untergliedern, dass für 


jede Teilstruktur eines abstrakten Syntaxbaumes ein eigenes Dekodierer-Modul verwendet wird. 
Yin und Neubig generieren hingegen gezielt abstrakte Syntaxbäume, indem sie eine probabilistische 
Grammatik (zur Beschreibung der Programmkonstrukte) und ein neuronales Netz (zur Analyse der 
natürlichen Sprache) kombinieren [YN17]. Beide Ansätze verwenden probabilistische Ansätze, 
um abstrakte Syntaxbäume zu erzeugen. Für Prof, wird hingegen ein regelbasiertes, generatives 


Vorgehen umgesetzt. Der Grund hierfür ist, dass viele AST-Bestandteile (verzweigte Bedingungen, 
Schleifen, Methodenaufrufe etc.) bereits als baumartige Strukturen im Pro f,,,-Graphen hinterlegt 
sind. Diese müssen nur noch auf geeignete Weise zusammengeführt werden, um einen abstrakten 
Syntaxbaum zu bilden. 


Die Fließbandstufe erzeugt den abstrakten Syntaxbaum in drei Schritten. Zunächst wird der 
Proy,,-Graph auf Strukturen untersucht, die sich in AST-Bestandteile überführen lassen; die 


Überführung erfolgt Muster-basiert (ähnlich dem Vorgehen des Dialog-Agenten, wie in |Ab- 


schnitt 7.10/beschrieben) und ist dementsprechend erweiterbar. Durch die Mustersuche entstehen 


Teilstrukturen (bzw. Teilbäume), die Schleifen, Bedingungen, Aufrufe usw. repräsentieren. Im 
zweiten Schritt werden diese Strukturen zu einem AST verbunden. Da der so entstandene AST die 
Ausführungsreihenfolge noch nicht berücksichtigt, werden die Knoten im dritten Schritt, gemäß der 
Reihenfolge der Aussagen in der natürlichsprachlichen Äußerung, geordnet. 


8.1.1 Erkennung von Teilstrukturen 


Im ersten Schritt werden Teilstrukturen von abstrakten Syntaxbäumen generiert. Dabei handelt 
es sich nicht nur um einzelne Knoten, sondern in den meisten Fällen um Teilbäume. Folgende 
Strukturen sollen erzeugt werden: 


e Anweisungen (inkl. Methodenaufrufen) 
e Blöcke 

e Bedingte Verzweigungen 

e Schleifen (For, While und Do-While) 


e Parallele Abschnitte (Nebenläufigkeit) 
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Diese enthalten wiederum weitere Bestandteile, wie Deklarationen, Ausdrücke, Komparatoren etc. 
Zusätzlich wird für jede Äußerung ein Wurzelknoten erzeugt; in diesem wird auch hinterlegt, ob es 
sich bei der Äußerung um eine Methodendefinition oder ein Skript handelt (siehe|Abschnitt 7.8). 


Die oben genannten Strukturen werden mithilfe sogenannter Strukturerkenner generiert. Ein 
Strukturerkenner besteht aus einem Graphmuster und einer zu erzeugenden Zielstruktur, die 
jedes Mal erzeugt wird, wenn das Muster im Graphen detektiert wird. Etwaige aktuelle Werte 
werden in der Zielstruktur mithilfe von Schablonen hinterlegt. Die Strukturerkenner sind in 


einer Zustandigkeitskette (engl. chain of responsibility) organisiert |Gam+94]. Die Menge der 


Strukturerkenner (und damit auch der erkennbaren Teilstrukturen) ist erweiterbar. Zudem kann 
konfiguriert werden, welche Strukturerkenner zur Zuständigkeitskette hinzugefügt und somit zur 
Analyse verwendet werden?| 


In diesem Beispiel soll veranschaulicht werden, wie anhand eines Graphmusters die Teilstruktur 
Bedingte Verzweigung erzeugt wird. Das Beispiel nimmt Bezug auf das in [Abbildung 8.1 
dargestellte Schema. 


Natürlichsprachliche Sequenz 
Robo if the cup is dirty wash it 
Erlauterung 


Die Knoten vom Typ Token des Proy,,-Graphen enthalten unter anderem ein Attribut, das 
angibt, ob das jeweilige Wort Bestandteil einer verbalisierten bedingten Verzweigung ist. Token 
mit dem Attributwert /F gehören zum Konditional-, solche mit dem Wert THEN zum Dann- und 
die mit dem Wert ELSE zum Andernfalls-Gliedsatz (siehe|Abschnitt 7.6). Der Strukturerkenner 
zur Erzeugung von bedingten Verzweigungen reagiert auf eine zusammenhängende Folge 


von Token, welche die obenstehenden Attributwerte tragen, wobei mindestens ein JF und ein 
THEN oder ELSE enthalten sein muss. Da dieses Muster im Beispiel erkannt wird, erzeugt 
der Strukturerkenner die entsprechende AST-Teilstruktur. Zusätzlich wird hinterlegt, welche 


Token (der natürlichsprachlichen Äußerung) die Teilstruktur umfasst. 


8.1.2 Verbindung der Teilstrukturen 


Im zweiten Schritt werden die bisher unzusammenhängenden Teilstrukturen zu einem Baum 
verbunden. Hierzu wird zunächst für jedes Token der natürlichsprachlichen Äußerung ein Pfad 
aufgebaut, der alle Teilstrukturen beinhaltet, in denen das Token enthalten ist. Die Teilstrukturen 
werden dabei gemäß ihrer Größe (Anzahl umspannter Token) sortiert. Jeder Pfad beginnt mit einem 


In der Standardkonfiguration werden alle Strukturerkenner für die zuvor genannten Teilstrukturen verwendet. 
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Beg. Ins. 


Ins. Ins. End Beg. Ins. 


one sae es erkanntes Muster ... elai man 
IF IF IF IF IF THEN THEN 


Abbildung 8.1: Erzeugung der Teilstruktur Bedingte Verzweigung anhand eines Graphmusters. 


ALN LA 


(a) Schritt 1. (b) Schritt 2. (c) Schritt 3. (d) Schritt 4. 


Abbildung 8.2: Schrittweise Verschmelzung gleicher AST-Knoten: Die Verschmelzung wird ausgehend von der Wurzel 
zu den Blättern durchgeführt. 


Token und endet beim Wurzelknoten. Für die Äußerung ifthe cup is dirty wash it könnte der Pfad 
des Tokens wash beispielsweise wie folgt lauten: Token > Anweisung/Methodenaufruf > 
BedingteV erzweigung > Wurzel. 


Alle Pfade werden anschließend schrittweise von oben nach unten (engl. top-down) verschmolzen, 
indem gleiche Knoten zusammengefasst werden. Das Ergebnis ist ein abstrakter Syntaxbaum, dessen 
Knotensortierung noch nicht der Reihenfolge in der natürlichsprachlichen Äußerung entspricht. Der 


Verschmelzungsprozess ist schematisch in|Abbildung 8.2/dargestellt. Bei der Verschmelzung können 


Mehrdeutigkeiten auftreten; nicht in allen Fällen kann der Elter-Knoten eines Knotens eindeutig 
bestimmt werden. Beispielsweise kann eine Anweisung nur teilweise innerhalb eines Schleifenkörpers 
liegen. Derartige Ambiguitäten können auftreten, da Anweisungen (bzw. Methodenaufrufe) und 
Kontrollstrukturen unabhängig voneinander von unterschiedlichen Agenten erzeugt werden. Für die 
Erzeugung des abstrakten Syntaxbaumes hätte eine solche Situation zur Folge, dass der Knoten, 
der die Anweisung darstellt, zwei unterschiedliche Elter-Knoten hätte. Da der Baum dadurch 
nicht mehr minimal zusammenhängend wäre, muss einer der Pfade gewählt und die andere Kante 
entfernt werden. Um die Auswahl zu treffen, wird jeweils die Schnittmenge der überspannten 
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to tı t2 t3 t4 t5 te t7 tgs l < N 
(a) Token und Teilstrukturen. (b) mehrd. AST. (c) erz. AST. 


Abbildung 8.3: Auflösung einer mehrdeutigen Elter-Kind-Beziehung bei der Erzeugung des AST: Die Teilabbildung 
(a) zeigt die Ausgangssituation mit den Token to bis ts und den zugehörigen Teilstrukturen. In Teilabbildung (b) ist 
der mehrdeutige AST dargestellt, der entsteht, da Anwe nur teilweise dem Rumpf der Schleife zugeordnet wurde. Die 
Teilabbildung (c) zeigt den letztlich erzeugten AST. Gemäß|Gleichung 8.1 erhält der Knoten R die höhere Bewertung gegen- 
über W und wird daher ausgewählt (A(Anw2, Rumpf) = |{te,t7}|/|{ts, ...,tr}| = 2/5 > A(Anwe, Wurzel) = 
Hte, t7, ts}|/l{t1, ..., tg }| = 3/9). 


Token der übergeordneten Teilstrukturen (Elter-Knoten) mit der untergeordneten Struktur (Kind- 
Knoten) gebildet. Die Mächtigkeit der Mengen wird jeweils mit der Mächtigkeit der Token-Mengen 
der übergeordneten Teilstrukturen normiert. Die Auswahlbewertung A für Kombination eines 
Kind-Knoten k und mit einem Elter-Knoten e berechnet sich dementsprechend wie folgt: 


= Tr N Tel 


A(k,e) = m (8.1) 


Dabei entspricht Tk der Menge der überspannten Token der untergeordneten Teilstruktur und Te 
der entsprechenden Menge der übergeordneten Struktur. Die Auswahl eines Elter-Knotens in einer 


uneindeutigen Hierarchie ist in|Abbildung 8.3|schematisch dargestellt. In dem gezeigten Beispiel 


muss entschieden werden, ob die dritte Anweisung (Anws) dem Schleifenrumpf (Rumpf) zugeordnet 
oder direkt unter dem Wurzelknoten (Wurzel) eingehängt wird. 


8.1.3 Sortierung der Teilbäume 


Die erzeugten Syntaxbäume sind bisher noch unsortiert. Die Reihenfolge der Knoten ist zufällig 
und entspricht damit insbesondere nicht der Reihenfolge der Aussagen der natürlichsprachlichen 
Äußerung. Diese Sortierung wird hergestellt, indem ausgehend von den Token die Position im Baum 
nach oben propagiert wird. Ein Elter-Knoten e erhält als Position P die mittlere Position seiner 
Kind-Knoten k; zugewiesen (aus der Memge der Kind-Knoten K): 


|K] 
2 P(ki) 


P(e, K) = = — 
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Mit der Sortierung der Knoten ist die Generierung des abstrakten Syntaxbaumes abgeschlossen. 
Zuletzt wird der Syntaxbaum in den Pro, -Graphen eingegliedert. Hierzu werden zunächst für 
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alle Knoten des Syntaxbaums äquivalenten Knoten im Proy,,-Graphen erzeugt’) und anschließend 
alle Knoten vom Typ Token mit ihren jeweiligen direkten Elter-Knoten verbunden. 


8.2 Extraktion des Syntaxbaumes 


Die zweite Fließbandstufe des Nachverarbeitungsfließbandes von Prog% ist dafür zuständig, den 
zuvor erzeugten abstrakten Syntaxbaum aus dem Graphen zu extrahieren (siehe[Abschnitt 8.1). Da die 
Knoten- und Kantentypen der AST-Bestandteile im Graphen bekannt sind, kann der AST extrahiert 
werden, indem beginnend bei der Wurzel die jeweiligen Kanten verfolgt werden. Der extrahierte AST 
wird anschließend in eine interne Graph-Darstellung überführt, die nur Informationen enthält, die 
zur Erzeugung von Quelltext erforderlich sind; das bedeutet, an dieser Stelle findet eine Reduktion 


der vollständigen Analyseergebnisse auf einen abstrakten Syntaxbaum statt. 


8.3 Erzeugung von Quelltext 


Die Fließbandstufe zur Erzeugung von Quelltext nimmt den zuvor generierten AST entgegen und 
transformiert diesen in Quelltext einer konkreten Programmiersprache. Abstrakte Syntaxbäume 
stellen eine hierarchische Repräsentation von Quelltext dar [Aho+06]. Daher kann Quelltext aus 
einem AST erzeugt werden, indem die Knoten des Baums ausgehend von der Wurzel tiber die 
Kanten verfolgt werden. Um die Erzeugung von Quelltext fiir verschiedene Programmiersprachen 
zu ermöglichen, wird das Entwurfsmuster Besucher (engl. visitor) verwendet"| Ein 
Besucher sucht einen Knoten des AST auf und setzt das jeweilige abstrakte Programmkonstrukt in 
ein konkretes Konstrukt der entsprechenden Programmiersprache um. Da die meisten Programmier- 
sprachen Programmkonstrukte syntaktisch unterschiedlich umsetzen, wird je Programmiersprache 
ein Besucher benötigt. Für Pro, wurden Besucher für folgende Programmiersprachen umgesetzt: 


e Java 
eC 


e Python 


° PlantUML? (domänenspezifische Sprache (engl. domain-specific language, kurz DSL) zur 
Erzeugung von UML-Diagrammenf) 


e PseudoCode (Pseudo-Quelltext) 


Je AST-Bestandteil (also Wurzel, Schleife, Schleifenkopf usw.) wird ein neuer Knotentyp erzeugt; alle Knotentypen 
haben das Präfix AST. Zudem werden unterschiedliche Kantentypen (ebenfalls mit Präfix AST) erzeugt, je nachdem, 
ob es sich um Kanten innerhalb einer Teilstruktur, zwischen Teilstrukturen oder zu Token handelt. 

Viele Kompilierer verwenden das Besucher-Muster, um aus abstrakten Syntaxbäumen (die zuvor aus konkretem 
Quelltext generiert wurden) Zwischen- oder Maschinensprache zu generieren (siehe z. B. [NCM03}). Für Proj, 
wurde dieser Ansatz umgekehrt, um aus einem AST konkreten Quelltext zu generieren. 

> PlantUML: nttps://plantum1. com/| zuletzt besucht am 24.02.2021. 

Im Kontext von Prof, wird PlantUML zur Erzeugung von UML-Aktivitätsdiagrammen verwendet. 
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8.3 Erzeugung von Quelltext 


Die Auswahl der Sprachen erfolgte anhand folgender Überlegungen: Zunächst sollten populäre 
Programmiersprachen unterstützt werden. Daher wurden mit Java, C und Python die drei derzeit 
populärsten Programmiersprachen nach dem TIOBE-Index ausgewählt”| Durch diese Wahl werden 
zudem unterschiedliche Paradigmen abgedeckt: C ist eine imperative, prozedurale Programmierspra- 
che, Java unter anderem Objekt-orientiert und Python zudem funktional. Somit kann gezeigt werden, 
dass Proy_, Quelltext für unterschiedliche Typen von Programmiersprachen generieren kann. Zu- 
sätzlich wurde mit PlantUML eine domänenspezifische Sprache gewählt, mit der UML-Diagramme 
generiert werden können. Im Kontext von Proy_, wird PlantUML verwendet, um Aktivitätsdia- 
gramme zu generieren|| Zuletzt kann mithilfe eines weiteren Besuchers Pseudo-Quelltext generiert 
werden. Dadurch kann die Qualität des durch Proy,, erzeugten Generats unabhängig von den 
Eigenheiten der jeweiligen Programmiersprachen bewertet werden. 


Die Besucher können für unterschiedliche Zielsysteme verwendet werden. Ein neuer Besucher 
muss nur hinzugefügt werden, falls ein Zielsystem angebunden werden soll, das eine bisher nicht 
betrachtete Programmiersprache verwendet?| 


In diesem Beispiel soll die Quelltextgenerierung fiir unterschiedliche Programmiersprachen 
(hier Java und C) veranschaulicht werden. Das Beispiel nimmt Bezug auf [Abbildung 8.4} 
welche die Generate für beide Programmiersprachen zur nachfolgenden natürlichsprachlichen 


Sequenz darstellt. 
Natürlichsprachliche Sequenz 


hey armar check if the dish is dirty then wash the dish twice after that get me orange juice 
while reading the news for me 


Erläuterung 


Das Beispiel enthält eine bedingte Verzweigung, eine Zählschleife, sowie zwei parallele 
Abschnitte. Die Verzweigung und die Zählschleife werden in beiden Programmiersprachen 
syntaktisch identisch umgesetzt. Die Quelltextabschnitte zur Umsetzung der parallelen Ab- 


schnitte unterscheiden sich hingegen deutlich. Während in Java Fäden (engl. Thread) erzeugt, 


gestartet und nach der Abarbeitung des Abschnitts zusammengeführt werden, genügt in C die 


Definition sogenannter parallel sections (bei Verwendung von OpenMP [Cha+O01]). 


7  TIOBE-Index: https: //www.tiobe.com/tiobe-index/, zuletzt besucht am 24.02.2021. 

Aktivitätsdiagramme eignen sich zur Darstellung von Abläufen und sind auch für Laien verständlich. Dadurch 
eignen sie sich, um Prof, in einer Nutzerstudie zu evaluieren (siehe Abschnitt 9.2). Zudem gibt die Erzeugung von 
Aktivitätsdiagrammen einen Ausblick darauf, wie Pro, abseits von reiner Quelltexterzeugung verwendet werden 
kann (siehe hierzu /Abschnitt 10.2 

Der Aufwand bei der Erstellung eines Besuchers für eine neue Programmiersprache ist gering. Die bisher entwickelten 
Besucher haben einen Umfang von lediglich 175 bis 245 Quelltextzeilen. 
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8 Nachverarbeitung 


if (isDirty(Dishes)) { if (isDirty (Dishes)) { 
forint a — DE en) forne al == We a << We lan) 
{ { 
wash (Dishes); wash( Dishes); 
} } 
y else ù } else i} 
Thread t0 = new Thread() { #pragma omp parallel sections 
public void run() { { 
getl(OrangeJuice); 
} #pragma omp section 
T { 
getl (OrangeJuice); 
tO. start(); } 
Thread tl = new Thread() { #pragma omp section 
public void run() { { 
read (News) ; read (News); 
} } 
es } 
erstaunt oe 
t0.join(); 
Elle ous (Oye 


(a) Java. 


(b) C. 


Abbildung 8.4: Zwei Quelltextgenerate für die Programmiersprachen Java (a) und C (b). 


8.4 


Injektion des Quelltext in Schablonen 


Zuletzt muss der generierte Quelltext noch auf einem Zielsystem ausführbar gemacht werden. 
Die letzte Stufe des Nachverarbeitungsfließbands von Prog% setzt diese Aufgabe um, indem 
der Quelltext in Quelltextschablonen (engl. code templates) injiziert wird! Die verwendeten 
Quelltextschablonen bestehen aus Zielsystem-spezifischen Implementierungsdetails, beispielsweise 
zur Umsetzung eines Einschubs (engl. Plug-In), und Platzhaltern | Als Platzhalter sind folgende 


Felder definiert: 


e {{ header }}: Dateikopf (z. B. Modul- oder Klassenimporte) 


“Ai 
“di 


classHead }}: Modul- oder Klassenkopf (z. B 
newMethod }}: private Methoden, von Prof% 


e {{ topComment }}: Hauptkommentarfeld 


eA. 


code }}: generierter Quelltext 


. Klassenattribute) 


generiert 


Abschnitt 7.8) 


!0 Die Verwendung von Quelltextschablonen ist nur eine Möglichkeit, um den Quelltext ausführbar zu machen. Alternativ 
könnten beispielsweise auch Web-API-Aufrufe generiert werden. Hierzu müsste nur eine neue letzte Fließbandstufe 
implementiert werden; das übrige Pro f,,-System könnte trotz dieses Paradigmenwechsels unverändert verwendet 


werden. 
Zum Befüllen der Schablonen wird das Werkzeug jtwig verwendet: 
besucht am 24.02.2021. 
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https://github. com/jtwig/jtwig, zuletzt 


8.4 Injektion des Quelltext in Schablonen 


if {{ header }} @startuml 
class MyLegoRobot implements ISystem { #HotPink: 
’{{ topComment }} 
// {{ classHead }} : 
detach 
public static void main(String[] args) { 
ISystem sys = new LegoRobot(); start 
y Af 
sys.execute(); eodeni) 
} catch (Exception e) { 
System. err.println("Error"); stop 
} 
sys.close(); >{{ newMethod }} 
} 
@enduml 
@Override 
public void execute () { 
// {{ topComment }} 
hi {4 code y} 
} 
// {{newMethod } } 
} 
(a) Java (Lego Mindstorms-API). (b) PlantUML. 


Abbildung 8.5: Zwei Schablonen zur Quelltextinjektion: Die Schablone in Teilabbildung (a) kann verwendet werden, um 
einen Lego Mindstorms-Roboter tiber eine Java-API zu steuern; die Schablone in Teilabbildung (b) dient zur Erzeugung 
von PlantUML-Quelltext. 


Für jedes anzubindende Zielsystem muss eine Schablone bereitgestellt werden. Der Inhalt der 
Schablonen kann beliebig gestaltet werden; die Schablonen können, müssen aber nicht alle zuvor ge- 
nannten Platzhalter enthalten. Außerdem können auch zusätzliche Informationen kodiert werden, wie 


beispielsweise Zielsystem-interne Darstellungen (bzw. Implementierungen) der Umgebungsobjekte. 


Abbildung 8.5|zeigt zwei für Pro, erstellte Schablonen. 


Die Fließbandstufe sorgt dafür, dass der zuvor erzeugte Quelltext (und gegebenenfalls die weiteren 
Bestandteile) an den jeweiligen Stellen eingefügt werden] Dadurch entsteht ausführbarer Quelltext 
für ein Zielsystem. Mit der letzten Nachverarbeitungsfließbandstufe endet die Verarbeitung durch 


Pro/,. Die Erzeugung eines Programms aus einer gesprochenen Äußerung ist damit abgeschlossen. 


12 Für welches Zielsystem Quelltext generiert werden soll, das heißt welche Schablone verwendet wird, kann konfiguriert 


werden. Die Standardkonfiguration sieht die Erzeugung von Pseudoquelltext in einer einfachen Umgebungsschablone 
vor. 
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9 Evaluation des Gesamtsystems 


„Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt.“ 


— Ludwig Wittgenstein 


Für das System Pro, wurde in|Kapitel 5\die Zielstellung formuliert, die Endnutzer-Programmierung 


mit gesprochener Sprache zu ermöglichen. Nachdem in den anschließenden Kapiteln die einzelnen 
Systembestandteile zur Umsetzung dieses Ziels beschrieben wurden, gilt es die Leistungsfähigkeit 
des Gesamtsystems zu bewerten. In diesem Kapitel soll folglich analysiert werden, wie gut es 
Proy/,, gelingt, aus natürlichsprachlichen Anweisungen Quelltext zu generieren. 


In den vorangegangen Kapiteln wurden bereits einzelne Bestandteile von Prog% evaluiert. Diese 
Evaluationen geben einerseits Aufschluss darüber, welche Sprachanalysen bereits zufriedenstel- 
lende Ergebnisse liefern und welche zukünftig verbessert werden sollten, um die Performanz des 
Gesamtsystems zu steigern. Andererseits treffen einige Evaluationen auch bereits Aussagen zur 
Leistungsfähigkeit des Gesamtsystems hinsichtlich ausgewählter Aspekte. Die Evaluationen der 
Agenten zur Synthese von Kontrollstrukturen zeigen bereits, wie gut Pro, Kontrollstrukturen 
aus natürlichsprachlichen Äußerungen synthetisieren kann (siehe|Abschnitt 7.6.5). Dasselbe gilt für 
den Agenten zur Synthese von Methodendefinitionen und Skripten (siehe|Abschnitt 7.8); dieser 
erzeugt nicht nur Methodensignaturen und -rümpfe bzw. Skripte, sondern bildet zusätzlich auch 


natürlichsprachliche Anweisungen auf Zielsystemfunktionen ab. Das bedeutet, an dieser Stelle 
entstehen bereits Skripte bzw. Methoden, bestehend aus Pseudo-Quelltext. Dementsprechend zeigt 
die zugehörige Evaluation bereits, wie gut Prof, Anweisungen (bzw. API-Aufrufe) synthetisieren 
kann. Zuletzt konnte im Zuge der Beschreibung des Nachverarbeitungsfließbandes bereits exempla- 
risch gezeigt werden, dass Quelltext in unterschiedlichen Programmiersprachen für verschiedene 
Anwendungsdomänen generiert werden kann (siehe|Kapitel 8). 


Anhand der Evaluationen zu den Einzelbestandteilen kann jedoch keine Aussage darüber getroffen 
werden, wie gut das Zusammenspiel der Komponenten funktioniert. In diesem Kapitel soll 
daher die Leistungsfähigkeit des Gesamtsystems bemessen werden. Hierzu werden verschiedene 
Evaluationen durchgeführt, die Prog% jeweils aus unterschiedlichen Blickwinkeln bewerten 
bzw. unterschiedliche Teilaspekte evaluieren. Alle Evaluationen werden anhand von manuellen 
Transkriptionen durchgeführt. Dadurch wird der Einfluss der Spracherkennung kontrolliert und die 
Evaluationen sind wiederholbar. Dementsprechend zeigen die Evaluationen die Leistungsfähigkeit 
des Gesamtsystems bei Verwendung eines optimalen Spracherkenners!| Um den Einfluss der 


Wie in|Abschnitt 6.1\beschrieben, verwendet die Vorverarbeitungsfließbandstufe zur Mehrfach-Automatischen- 
Spracherkennung ausschließlich Online-Spracherkennungssysteme. Diese werden stetig weiterentwickelt, sodass sich 
die für eine Audioaufzeichnung zurückgelieferten Transkriptionen prinzipiell bei jeder Ausführung ändern können. 
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9 Evaluation des Gesamtsystems 


automatischen Spracherkennung (zum aktuellen Stand der Technik) bemessen zu können, werden 
für eine der Evaluationen zusätzlich zum Vergleich automatisch erzeugte Transkriptionen eines 
Systems zur Spracherkennung verwendet. Die folgenden drei Evaluationen werden durchgeführt: 


e eine Evaluation anhand einer Online-Studie, in der Probanden Pseudo-Quelltext-Generate 


bewerten, 
e eine Evaluation konkreter Java-Quelltext-Generate und 


e eine Evaluation der Fähigkeit zur Erzeugung von Methodendefinitionen. 


Die erste Evaluation ermöglicht die Bemessung der Qualität der von Prof% erzeugten Ausgaben 
anhand unabhängiger (und mehrheitlicher) Bewertungen durch Laien. Die zweite analysiert hingegen 
Quelltext-Generate für eine konkrete Anwendungsdomäne und ermöglicht die detaillierte Bewertung 
der Generate auf Anweisungsebene. Als Datengrundlage für die zweite Evaluationen dienen sowohl 
händische Transkriptionen als auch Audioaufzeichnungen, die durch ein System zur automati- 
schen Spracherkennung transkribiert werden. Damit ist diese Evaluation eine vollumfängliche 
Ende-zu-Ende-Evaluation des Gesamtsystems: Anhand (von Audioaufzeichnungen) gesprochener 
Handlungsanweisungen wird ausführbarer Quelltext für ein konkretes Zielsystem erzeugt. Zusätzlich 
wird bei dieser Evaluation für beide Varianten (manuelle und automatische Transkriptionen) die 
Gesamtlaufzeit des Systems pro Eingabe gemessen. Mithilfe der dritten Evaluation kann schließlich 
bewertet werden, wie gut Pro/_, das Lehren neuer Funktionalität von Handlungsanweisungen 
unterscheiden und Methodensignaturen und -rümpfe synthetisieren kann. 


Nachfolgend wird zunächst erläutert, wie Prof, zur Durchführung der drei Evaluationen konfigu- 
riert wird (Abschnitt 9.1). In den drei darauffolgenden Abschnitten werden die Durchführungen 
und Ergebnisse der Evaluationen diskutiert (Abschnitte 9.2||9.3]und 9.4). Abschließend wird das 
durch die Summe der einzelnen Evaluationen gewonnene Gesamtbild der Leistungsfähigkeit des 


Gesamtsystems bewertet (Abschnitt 9.5). 


9.1 Systemkonfiguration für die Evaluationen 


Für die Durchführung aller drei Evaluationen wird Pro /_, im Wesentlichen einheitlich konfiguriert. 


Zur Verarbeitung der jeweiligen Evaluationsdaten werden alle in|Kapitel 6|beschriebenen Vorver- 


arbeitungsstufen mit Ausnahme der Mehrfach-Automatischen-Spracherkennung verwendet (siehe 
[Abschnitt 6.1); letztere wird wie zuvor beschrieben nur für die zweite Variante der zweiten Evaluation 
verwendet. Alle anderen Evaluationen verwenden als Datengrundlage manuelle Transkriptionen 
(bzw. textuelle Beschreibungen), weshalb keine automatische Spracherkennung durchgeführt werden 


muss. Von den in|Kapitel 7/beschriebenen Agenten werden alle bis auf vier verwendet. Die in den 


Evaluationen nicht eingesetzten Agenten sind folgende: 
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e Der Agent für Disambiguierung basierend auf Wikipedia (siehe|Abschnitt 7.2.2) 


e Der Agent zur Modellierung und Etikettierung von Diskurs-Themen (siehe 
Abschnitt 7.3 


Der Agent zur automatische Auswahl von Zielsystem- und Umgebungsontologien (siehe 
Abschnitt 7.9 


e Der Dialog-Agent (siehe|Abschnitt 7.10) 


Die Fähigkeit von Prof, Zielsystem- und Umgebungsontologien anhand von natürlichsprachlichen 
Äußerungen automatisch auszuwählen, wurde bereits hinlänglich im Zuge der Evaluation des 
Agenten bemessen (siehe Abschnitt 7.9.2). Daher wurden für die drei nachfolgend beschriebenen 


Evaluationen die Datensätze so gewählt, dass alle Beschreibungen an einen Haushaltsroboter als 


Zielsystem gerichtet werden; als zugehörige Umgebung wird in allen Szenarien die Küchenumgebung 


verwendet (siehe |Abschnitt 5.4.3). Auf diese Weise kann die automatische Domänenauswahl als 


Fehlerquelle ausgeschlossen werden und der entsprechende Agent muss nicht verwendet werden. 
Durch diese Entscheidung kann auch auf den Agenten zur Modellierung und Etikettierung von 
Diskurs-Themen verzichtet werden, da derzeit lediglich der Agent zur automatischen Auswahl 
von Zielsystem- und Umgebungsontologien die erzeugten Themen-Etiketten verwendet. In der 
Folge wird auch der Agent für Disambiguierung basierend auf Wikipedia verzichtbar, da die 
Wikipedia-Bedeutungsetiketten bisher nur vom Agenten zur Modellierung und Etikettierung 
von Diskurs-Themen genutzt werden. Außerdem wird der Dialog-Agent nicht verwendet, da die 
Evaluationen kontrolliert und wiederholbar durchgeführt werden sollen. Daher werden ausschließlich 
Transkriptionen (bzw. textuelle Beschreibungen) und Audioaufzeichnung als Datengrundlage 
verwendet und die Ergebnisse, die ohne etwaige Korrekturen durch Dialoge entstehen, bewertet. Als 
Funktionswächter-Agent wird zum einen der Agent verwendet, der eine mögliche Zeitüberschreitung 
prüft; der Schwellenwert für die zulässige Gesamtverarbeitungszeit (durch die Agenten) wird 
auf fünfzehn Sekunden gesetzt. Zum anderen wird der Agent verwendet, der prüft, wie lange 
keine Änderung mehr am Graphen durchgeführt wurde; der Schwellenwert wird auf eine Sekunde 
gesetzt. Das bedeutet, die Verarbeitung einer einzelnen natürlichsprachlichen Äußerung durch die 
EAS wird spätestens nach fünfzehn Sekunden oder wenn über eine Sekunde keine Änderung am 
Graphen registriert wird terminiert. Diese vergleichsweise hohen Schwellenwerte wurden gewählt, 
um sicherzustellen, dass für alle Eingaben vollständige Analyseergebnisse erzeugt werden. 


Zur Nachverarbeitung der Analyseergebnisse der Agenten werden alle in [Kapitel 8]beschriebenen 
Fließbandstufen verwendet. Innerhalb der Stufe zur Erzeugung von Quelltext werden die Besucher 
zur Generierung von Java- und Plant UML-Quelltext verwendet? (siehe Abschnitt 8.3). Welcher 
Besucher für die jeweilige Evaluation verwendet wird und weitere Abweichungen von der hier 


festgelegten Konfigurationen, werden in den jeweiligen Abschnitten dieses Kapitels zu den einzelnen 
Evaluationen beschrieben. 


2 


Mit PlantUML generierte Aktivitätsdiagramme werden als Laien-konforme Darreichungsform von Quelltext in einer 


Studie verwendet (siehe|Abschnitt 9.2.1) 
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9.2 Studie zur Bewertung von Pseudo-Quelltext 


Die erste Evaluation des Gesamtsystems bewertet das Zusammenspiel der Sprachanalysen von 
Pro/,, unabhängig von einer konkreten Anwendungsdomäne. Diese Herangehensweise wird 
verfolgt, da nur ein geringer Anteil der Sprachanalysen von der konkreten Anwendungsdomäne 
abhängt. Andererseits kann die Anweisungsdomäne das Evaluationsergebnis überproportional 
beeinflussen, beispielsweise wenn das gewählte Zielsystem eine Funktion, die der Nutzer erwartet 
und beschreibt, nicht anbietet. In diesem Fall würde kein Quelltext erzeugt werden, selbst wenn 
Pro, zuvor eine korrekte Anweisung synthetisiert hätte. Dementsprechend kann die Qualität der 
Sprachanalysen im Zusammenspiel ohne Anwendungsdomäne optimal bemessen werden. Daher 
wird für diese Evaluation Pseudo-Quelltext erzeugt. 


Die Quelltext-Generate werden anschließend in einer Online-Studie von Probanden bewertet. Auf 
diese Weise wird eine neutrale Bewertung der Generate gewährleistet. Die Probanden sind nicht in die 
Auswertung der Ergebnisse involviert und haben zudem (aller Voraussicht nach) kein persönliches 
Interesse am Ausgang der Evaluation; somit unterliegen sie bei der Bewertung der Generate nicht 
dem Experimentator-Effekt. Außerdem kann jedes Generat von mehreren Probanden bewertet 
werden. Dadurch sind Mehrheitsentscheide (das heißt die Betrachtung mehrheitlicher Bewertungen) 
möglich, wodurch der Einfluss einzelner Fehleinschätzungen minimiert wird. 


Als Datengrundlage dienen die Transkriptionen zu den Aufnahmen der stationären Datensammlung 
(siehe Abschnitt 5.5.2). Die Transkriptionen werden von Prof, verarbeitet; als Ausgabe werden 
UML-Aktivitätsdiagramme erzeugt. Durch die Verwendung von Aktivitätsdiagrammen können 


programmatische Strukturen in einer für Laien verständlichen Form dargestellt werden; durch die 
intuitive Repräsentation von Abläufen ist nur eine kurze Einführung nötig. Aktivitätsdiagramme 
eignen sich zudem zur Darstellung von Pseudo-Quelltext. Anweisungen bilden die Aktivitäten; 
auch die Darstellung von Kontrollstrukturen (bedingte Verzweigungen, Schleifen und nebenläufige 
Abschnitte) ist möglich. 


Die von Proj_, erzeugten Diagramme werden den Probanden zur Bewertung vorgelegt; als 
Vergleichsgrundlage erhalten die Probanden die zugehörige Transkription. Die Probanden sollen 
bewerten, ob ein Diagramm vollständig korrekt ist (das heißt die Modellierung entspricht der 
Transkription) oder ob Fehler enthalten sind. Falls die Probanden Fehler entdecken, sollen sie die 
Art des Fehlers benennen. Durch diesen Studienaufbau kann nicht erfasst werden, wie viele Fehler 
in einem Diagramm enthalten sind oder ob ein Diagramm beinahe richtig ist (wie im nachfolgenden 
Beispiel) oder überhaupt keine Ähnlichkeit zur Transkription aufweist. Diese Informationen von 
den Probanden zu erfragen könnte diese überfordern und obliegt zudem zu sehr persönlichen 
Einschätzungen. Da die Bewertung der Diagramme auch ohnedies subjektiv ist, sollen in der Studie 
alle Diagramme von mehreren Probanden bewertet werden, um mehrheitliche Bewertungen zu 
erhalten. 


Nachfolgend wird zunächst der Studienaufbau präzisiert (Abschnitt 9.2.1). Anschließend wird die 
Durchführung der Online-Studie beschrieben (Abschnitt 9.2.2); zuletzt erfolgt die Auswertung der 


Ergebnisse (Abschnitt 9.2.3) 
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In diesem Beispiel soll demonstriert werden, wie die zu bewertenden Diagramme geartet 
sind und welche Fehlerquellen es gibt. Das Beispiel nimmt Bezug auf das in Abbildung 9.1] 
dargestellte Diagramm. Als Vergleichsgrundlage dient die nachfolgende Transkription, die aus 
der stationären Datensammlung stammt (Szenario neun). 


Transkription 


hey armar check if the dish is dirty then wash the dish twice after that get me orange juice 


while reading the news for me 


Erläuterung 


Das generierte Diagramm scheint die Transkription vollständig und korrekt umzusetzen. 
Tatsächlich wurden alle notwendigen Aktivitäten korrekt erzeugt; auch die Kontrollstrukturen 
wurden korrekt umgesetzt. Sowohl die bedingte Verzweigung als auch die Schleife und 
der nebenläufige Abschnitt sind korrekt platziert und beinhalten die richtigen Aktivitäten. 


Allerdings ist fraglich, ob die erste Aktivität hey armar check tatsächlich notwendig ist (zumal 


diese auch nicht wohlgeformt erscheint). Außerdem wurde die Korreferenz innerhalb der 
Aktivität while reading the news for me(me) nicht korrekt aufgelöst. Das Diagramm enthält 
also — obwohl es zunächst vollständig korrekt erscheint — zwei unterschiedliche Fehlerarten. 


9.2.1 Aufbau 


Für die Online-Studie werden — wie auch schon zur Durchführung der Online-Datensammlung (siehe 
Abschnitt 5.5.3) - Web-Formulare verwendet; diese repräsentieren einen Studienbogen. Die für die 
Online-Studie verwendeten Web-Formulare sind schematisch im Anhang in|Abschnitt C.4abgedruckt. 
Sie bestehen aus den folgenden Bestandteilen. Zunächst erfolgt eine kurze Einführung. Den 


Probanden wird die Aufgabenstellung erläutert: Vergleich einer natürlichsprachlichen Beschreibung 
mit einem daraus generierten UML-Aktivitätsdiagramm. Anschließend werden die Probanden 
mit UML-Aktivitätsdiagrammen vertraut gemacht; es wird kurz erläutert, welche Diagramm- 
Elemente es gibt und wie Kontrollstrukturen dargestellt werden. Nach der Einführung werden die 
Probanden zur eigentlichen Aufgabe weitergeleitet; sie werden aufgefordert, nacheinander mehrere 
Aktivitätsdiagramme mit der zugrundeliegenden Transkription zu vergleichen und zu bewerten. 
Hierzu können die Probanden Haken im Formular setzen; folgende Bewertungsmöglichkeiten 


werden angeboten: 


e Vollständig korrekt: Das Aktivitätsdiagramm (inklusive aller enthaltenen Aktivitäten und 
Kontrollstrukturen) entspricht vollumfänglich der zugrundeliegenden Transkription. 


e Korreferenz fehlerhaft: Das Aktivitätsdiagramm enthält mindestens eine Aktivität, bei der 
eine Korreferenz nicht oder fehlerhaft aufgelöst wurde. 
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false 


Abbildung 9.1: Ein von Pro,/,, synthetisiertes UML-Aktivitätsdiagramm: Das Diagramm enthält neben Aktivitäten 
eine bedingte Verzweigung sowie eine Zählschleife und einen nebenläufigen Abschnitt. 
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Aktivität fehlerhaft: Das Aktivitätsdiagramm enthält mindestens eine fehlerhafte Aktivität. 
Eine Aktivität ist fehlerhaft, wenn die beschriebene Aktivität entweder nicht wohlgeformt ist, 
oder semantisch falsch ist (z. B. können Wörter enthalten sein, die eigentlich zu einer anderen 
Aktivität gehören). 


Aktivität fehlt: Im Aktivitätsdiagramm fehlen eine oder mehrere Aktivitäten, die eigentlich 
aus der Transkription hervorgehen müssten. Auch Aktivitäten, die fälschlicherweise zu einer 
Aktivität verschmolzen wurden, gehören zu dieser Kategorie. 


Aktivität überzählig: Das Aktivitätsdiagramm enthält mindestens eine überzählige Ak- 
tivität, die nicht auf die Transkription zurückgeführt werden kann. Auch Aktivitäten, die 
fälschlicherweise in mehrere Aktivitäten aufgetrennt werden, gehören zu dieser Kategorie. 


Reihenfolge der Aktivitäten fehlerhaft: Das Aktivitätsdiagramm enthält zwar alle (gemäß 
der zugehörigen natürlichsprachlichen Äußerung notwendigen) Aktivitäten; diese sind jedoch 
in der falschen Reihenfolge. 


Bedingte Verzweigung fehlerhaft: Das Aktivitätsdiagramm enthält mindestens eine fehler- 
hafte bedingte Verzweigung. Eine bedingte Verzweigung ist fehlerhaft, wenn entweder die 
Bedingung semantisch falsch ist oder die zugehörigen Blöcke fehlerhaft sind (das heißt zu 
viele oder zu wenige Aktivitäten enthalten). Auch fehlende oder überzählige Verzweigungen 
fallen in diese Kategorie. 


9.2 Studie zur Bewertung von Pseudo-Quelltext 


e Schleife fehlerhaft: Das Aktivitätsdiagramm enthält mindestens eine fehlerhafte Schleife; 
eine Schleife ist fehlerhaft, wenn entweder der Kopf (z. B. fehlerhafte Bedingung) oder 
der Rumpf (z. B. fehlende Aktivitäten) Fehler enthalten. Auch fehlende oder überzählige 


Schleifen fallen in diese Kategorie. 


Nebenläufigkeit fehlerhaft: Das Aktivitätsdiagramm enthält mindestens eine fehlerhafte 
Nebenläufigkeit; nebenläufige Abschnitte sind dann fehlerhaft, wenn ihnen falsche Aktivitäten 
zugeordnet wurden. Auch fehlende oder überzählige Nebenläufigkeiten fallen in diese 
Kategorie. 


Sonstiges: Das Aktivitätsdiagramm enthält andere (nicht durch die vorangegangen Fehler- 
klassen erfassten) Fehler. Diese können in Form von Freitext beschrieben werden. 


Bei der Bewertung der Diagramme durch die Probanden sind Mehrfachnennungen gestattet, sofern 
nicht die Bewertung vollständig korrekt gewählt wurde. Das bedeutet, Probanden können ein 
Diagramm entweder als vollständig korrekt bewerten oder eine oder mehrere Fehlerarten wählen, 


die ihrer Meinung nach enthalten sind. 


9.2.2 Durchführung 


Als Datengrundlage zur Durchführung der Online Studie dienen vorwiegend die Transkriptionen 
der stationären Datensammlung. Die Dialog-Mitschnitte werden nicht verwendet. Dementsprechend 
stehen 201 Transkriptionen zur Verfügung (siehe Abschnitt 5.5.2.2). Von diesen wurden jedoch 
drei nicht verwendet. Wie in|Abschnitt 5.5.2.1/beschrieben, konnte auf Wunsch der Probanden eine 


Aufnahme wiederholt werden, wobei sowohl die erste als auch die wiederholte Aufnahme in das 
Korpus aufgenommen wurden. In drei Fällen unterscheiden sich die Aufzeichnung inhaltlich nicht. 
Daher wurde in diesen Fällen nur eine der Aufnahmen (bzw. Transkriptionen) verwendet. Hinzu 
kommen die 39 Transkriptionen aus der Online-Datensammlung zu den ersten drei Szenarien der 


stationären Datensammlung (siehe Abschnitt 5.5.3). In Summe stehen somit 237 Transkriptionen 


für die Evaluation zur Verfügung. Für diese werden durch Pro, Aktivitätsdiagramme erzeugt. 
Hierzu wird die in Abschnitt 9.1) beschriebene Konfiguration von Proy,, verwendet, wobei 
keine Anwendungsdomäne definiert wird. Dementsprechend können Sprachanalysen, die auf 


Ontologie-Informationen zugreifen, wie beispielsweise der Agent zur Modellierung des sprachlichen 
Kontextes (siehe|Abschnitt 7.4), diesen Teil ihrer Analysen nicht anwenden. Weiterhin wird die 
Fließbandstufe zur Erzeugung von Quelltext mit dem Besucher zur Erzeugung von PlantUML- 


Quelltext konfiguriert (siehe ‚Abschnitt 8.3). Auf diese Weise werden durch Proy,, aus den 


Transkriptionen 237 Aktivitätsdiagramme erzeugt, die durch Probanden bewertet werden sollen. 


Die Online-Studie wird — wie die Online-Datensammlung - über die Plattform Prolific durchgeführt 
(siehe [Abschnitt 5.5.3.1). Zur Bewertung der 237 Aktivitätsdiagramme werden 24 Einzelstudien 


angelegt; pro Einzelstudie werden neun oder zehn Transkriptionen zufällig aus den 237 zur Verfügung 
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15 20 25 30 35 40 45 50 55 60 65 70 
Alter 


Abbildung 9.2: Kastengrafik zur Altersverteilung der Probanden der Online-Studie zur Bewertung von Pseudo-Quelltext: 
Neben den üblichen Bestandteilen (Median, Quartile, Antennen und Ausreißern) wird zusätzlich der Mittelwert als Raute 
dargestellt. 


stehenden ausgewählt und daraus die Studienbögen generierf| Bei der zufälligen Auswahl der 
Diagramme wird sichergestellt, dass jedes Diagramm genau einer Studie zugewiesen wird (das 
heißt es gibt keine Dopplung). Jede Einzelstudie wird für fünf Teilnehmer freigegeben; das bedeutet, 
jedes Diagramm wird von fünf Probanden bewertet. Hinsichtlich der Teilnehmerauswahl werden 
keine Einschränkungen getroffen, außer dass jeder Nutzer nur an einer der Einzelstudien teilnehmen 
darf. An der so konzipierten Studie nahmen 120 Teilnehmer teil?) 49% der Probanden sind weiblich, 
51% männlich. Das Alter liegt zwischen neunzehn und 66 Jahren, wobei das durchschnittliche Alter 
31,34 Jahre betragt.|Abbildung 9.2|zeigt die Kastengrafik (engl. box plot) zur Altersverteilung. 53% 
der 120 Teilnehmer gaben als Muttersprache Englisch an. Auch bei der Herkunft der Teilnehmer 


dominieren englischsprachige Länder; die drei am häufigsten vertretenen Nationalitäten sind britisch 
(42), portugiesisch (16) und US-amerikanisch (13). 


9.2.3 Auswertung 


In der Online-Studie wurden - alle Einzelstudien zusammengenommen - 237 Aktivitätsdiagramme 
von jeweils fünf Probanden bewertet; in Summe wurden dementsprechend 1185 Bewertungen 


abgegeben. Abbildung 9.3\ zeigt die Verteilung der Einzelbewertungen?| Insgesamt vergaben die 


Probanden 580 Mal die Bewertung vollständig korrekt, das entspricht 49% der Diagramme. In 
allen anderen Diagrammen war folglich mindestens ein Fehler enthalten. Unter den angegebenen 
Fehlerarten macht die Bewertung Aktivität fehlerhaft mit 199 Stimmen den größten Anteil aus; es 
folgen fehlerhaft aufgelöste Korreferenzen mit 128 Nennungen?] Außerdem gaben die Probanden 
210 mal an, dass eine Aktivität entweder fehlt oder überzählig ist; die meisten Fehler dieser Art 
können entweder auf eine inkorrekte Aufteilungen in Instruktionen (siehe oder 
eine fehlerhafte Zuweisung von semantischen Rollen zurückgeführt werden (siehe [Abschnitt 6.4). 
Derartige Fehler können auch Auswirkung auf die Benennung der Aktivitäten haben und somit 


Die Zuteilung erfolgt zufällig, damit nicht zu viele gleichartige Diagramme in den Einzelstudien enthalten sind. 
Außerdem sind die Diagramme je nach Szenario unterschiedlich umfangreich und komplex; durch die zufällige 
Zuteilung wird der Aufwand für die Bewertung besser verteilt als bei einer sequenziellen Zuteilung. 

Die nachfolgenden Werte entstammen den Nutzerprofilen der Probanden und sind daher nicht zwingend vollständig 
(iche/Abschnit 55.32) 

Die Werte summieren sich nicht zu 1185, da bei der Auswahl der Fehlerarten Mehrfachnennung möglich waren. 
Es ist nicht auszuschließen, dass Probanden bei fehlerhaft aufgelösten Korreferenzen beide Möglichkeiten gewählt 
haben, da eine fehlerhafte Korreferenz gegebenenfalls auch die Benennung der Aktivität negativ beeinflusst 
(beispielsweise ist bei die Aktivität open it(it) unklar, welches Objekt geöffnet werden soll). 
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Anzahl 
0 50 100 150 200 250 300 350 400 450 500 55 
Vollst. korrekt | | | | 7 i i i i 
Korreferenz f. 128 
Aktivität f. 199 
Akt. fehlt 
Akt. überzählig 
Reihenfolge f. 86 
Bed. Verzw. f. 
Schleife f. 
Nebenläufigk. f. | 


Abbildung 9.3: Verteilung der Einzelbewertungen durch die Probanden. 


01 015 02 025 03 03 04 045 05 0.55 0.6 
Fleiss-Kappa «K 


Abbildung 9.4: Kastengrafik zur Verteilung der Werte des Fleiss-Kappa x über die Einzelstudien: Neben den üblichen 
Bestandteilen (Median, Quartile, Antennen und Ausreißern) wird zusätzlich der Mittelwert als Raute dargestellt. 


zur Bewertung Aktivität fehlerhaft führen. Ein Beispiel hierzu folgt am Ende des Abschnitts. Eine 
inkorrekte Reihenfolge der Aktivitäten wurde 86 mal als Fehlerart gewählt. Für diese Fehlerart 
können keine eindeutigen Ursachen ausgemacht werden. Es kann aber nicht ausgeschlossen werden, 
dass Reihenfolgefehler eigentlich verdeckte Kontrollstrukturfehler sind (beispielsweise wenn eine 
Aktivität vor statt innerhalb eines nebenläufigen Bereich platziert wurde). Probanden könnten in 
solchen Fällen entweder nur Reihenfolge fehlerhaft oder zusätzlich einen Kontrollstrukturfehler als 
Bewertung gewählt haben. Fehler in Kontrollstrukturen wurden vergleichsweise selten entdeckt, 
die Bewertung Nebenläufigkeit fehlerhaft wurde sogar nur achtzehn mal gewählt (möglicherweise 
aufgrund des zuvor beschriebenen Effekts). Allerdings erfordern auch nicht alle Beschreibungen 
bzw. Transkriptionen die Verwendung von Kontrollstrukturen”| Außerdem ist die Bewertungen 
von Kontrollstrukturen noch stärker von der persönlichen Deutung der Probanden abhängig als die 
Auswahl der anderen Fehlerarten. Beispielsweise liegt es mitunter im Auge des Betrachters, ob eine 
Aktivität Teil eines Schleifenrumpfs sein sollte oder nicht. Ebenso können die Diagramme statt einer 
Zählschleife mit zwei Iterationen zwei aufeinanderfolgende, gleiche Aktivitäten enthalten; es obliegt 
dem Bewerter, dies als Fehler anzusehen oder nicht. Wurden Kontrollstrukturen tatsächlich (eindeutig) 
fehlerhaft synthetisiert, sind hierfür vorrangig durch die in den jeweiligen Agenten implementierten 
Regelsätze nicht erfasste grammatikalische Strukturen ursächlich (siehe[Abschnitt 7.6). 


7 Insbesondere die Transkriptionen zu den ersten drei Szenarien enthalten kaum Beschreibungen, welche die 


Verwendung von Kontrollstrukturen erfordern. 
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Anzahl 
0 10 20 30 40 50 60 70 80 90 100 110 
T 


Vollst. korrekt | 
Korreferenz f. 
Aktivität f. 
Akt. fehlt E] 
Akt. überzählig 
Reihenfolge f. [5] 
Bed. Verzw. f. 
Schleife f. 
Nebenläufigk. f. 


Abbildung 9.5: Bewertung je Diagramm unter Berücksichtigung des Mehrheitsentscheids durch je fünf Probanden pro 
Diagramm: Die dunkelgrünen Balken geben die Ergebnisse bei völliger Übereinstimmung, die mittelgrünen die Ergebnisse 
bei Übereinstimmung von mindestens vier Probanden und die hellgrünen bei Übereinstimmung von mindestens drei 
Probanden an (einfache Mehrheit). 


Bis hierhin wurden nur die Bewertungen aller Probanden einzeln über alle Diagramme betrachtet. 
Aussagekräftiger ist hingegen die Betrachtung der gemeinsamen Bewertungen (durch jeweils fünf 
Probanden) pro Diagramm. Das bedeutet, für jedes Diagramm wird bestimmt, ob es mehrheitliche 
Bewertungen gibt. Um einschätzen zu können, ob es ausreichende Übereinstimmungen bei den 
Bewertungen der Probanden gibt, wird zunächst das Fleiss-Kappa für alle Einzelstudien bestimmt] 
(siehe [Abschnitt 2.4.9). [Abbildung 9.4| zeigt die Kastengrafik zur Verteilung der x-Werte über 
die Einzelstudien. Der Mittelwert liegt bei 0,32; dies entspricht laut Landis und Koch einer 
mittelmäßigen, aber ausreichenden Übereinstimmung (LK77| .Allerdings zeigt die Kastengrafik 
auch eine vergleichsweise weite Streuung der Werte und dass es auch Einzelstudien mit sehr 


geringer Ubereinstimmung gibt. Dementsprechend steht zu erwarten, dass nicht fiir alle Diagramme 
mehrheitliche Bewertungen abgegeben wurden. Andererseits liegt der Median der «-Werte sogar 
über dem Mittelwert; folglich gibt es mehr Einzelstudien mit einer ausreichenden als solche mit 
einer geringer Übereinstimmung. 


Für alle Diagramme wurden die mehrheitlichen Bewertungen bestimmt; Abbildung 9.5| zeigt die 


Verteilung der Mehrheiten über die Bewertungsmöglichkeiten. Das abgebildete Balkendiagramm 
unterscheidet zwischen eindeutigen Bewertungen (Übereinstimmung aller fünf Probanden), starker 
Übereinstimmung (mindestens vier Probanden stimmen überein) und einfacher Mehrheit (mindestens 
drei Probanden stimmen überein). Wie die Abbildung zeigt, sind sich nur bei 29 Bewertungen alle 
fünf Probanden einig; diese Fälle entfallen zudem sämtlich auf die Wahl der Bewertung vollständig 
korrekt. Bei 91 Bewertungen sind sich vier Probanden einig und einfache Mehrheiten bilden sich 
für 168 Bewertungen. Betrachtet man einfache Mehrheiten je Diagramm, so zeigt sich, dass sich für 
163 eine mehrheitliche Bewertung ergibt; das entspricht 69% aller Diagramme. 113 der Diagramme 
werden als vollständig korrekt eingeschätzt; das entspricht 69% der Diagramme für die es eine 
mehrheitliche Bewertung gibt und 48% aller Diagramme. 50 Diagramme enthalten hingegen eine 
oder mehrere Fehlerarten (31% bzw. 21%). 


® Die Berechnung je Einzelstudie ist ausreichend, da alle Diagramme von denselben fünf Probanden bewertet wurden. 


310 


9.2 Studie zur Bewertung von Pseudo-Quelltext 


Gegenüber der Betrachtung der Einzelbewertung ergeben sich damit die folgenden Trends: Der 
Anteil der als vollständig korrekt angesehenen Diagramme gegenüber den Fehlerfällen ist höher 
bei den Einzelbewertungen, unabhängig davon welchen Grad der Übereinstimmung man zugrunde 
legt. Besonders deutlich wird der Unterschied jedoch bei Betrachtung der Übereinstimmung von 
fünf oder vier Bewertern. Bei der Wahl von Fehlerarten herrscht weniger Einigkeit, erst bei der 
Betrachtung von einfachen Mehrheiten zeigen sich nennenswerte Übereinstimmungen. Betrachtet 
man die Fehlerarten im Detail, zeigt sich, dass sich deutlich weniger Mehrheiten für fehlerhafte 
Korreferenzen bilden (10) als die Einzelbewertungen vermuten lassen. Gegenüber der Fehlerart 
Aktivität fehlerhaft (21) geht der Anteil deutlich zurück (48% gegenüber 64% bei Betrachtung 
der Einzelbewertungen); dies ist ein weiteres Indiz dafür, dass Probanden mitunter fehlerhafte 
Korreferenzen als fehlerhafte Aktivität deuten. Weiterhin fällt auf, dass die beiden Fehlerklassen 
Aktivität fehlt und Aktivität überzählig, die bei den Einzelbewertungen nahe beieinander liegen, sich 
bei Betrachtung des Mehrheitsentscheids deutlich unterscheiden; es gibt kaum Mehrheiten für die 
Fehlerart Aktivität fehlt (3), während immerhin in neun Diagrammen eine Mehrheit eine überzählige 
Aktivität ausmacht. Eine mögliche Erklärung hierfür ist, dass Probanden vereinzelt Aktivitäten als 
fehlend ansehen, die ihrer Meinung nach in das Szenario passen, aber keine Entsprechung in der 
Transkription haben, weshalb es keine Mehrheit für diese Einschätzung gibt. Auch hinsichtlich 
der Erkennung von Fehlern in der Reihenfolge der Aktivitäten herrscht wenig Einigkeit, lediglich 
bei fünf Diagrammen wird eine Übereinstimmung erzielt und dies auch nur bei Betrachtung 
einfacher Mehrheiten. Bei der Erkennung von fehlerhaften Kontrollstrukturen gibt es ebenfalls 
wenig Übereinstimmung; lediglich drei bedingte Verzweigungen und vier Schleifen werden von 
einer Mehrheit als fehlerhaft eingeschätzt, für fehlerhafte nebenläufige Abschnitte bilden sich keine 
Mehrheiten, obwohl innerhalb der Einzelbewertungen immerhin achtzehn identifiziert wurden. 


Zusammenfassend deuten die Ergebnisse der Betrachtung von Mehrheitsbewertungen darauf 
hin, dass ein Großteil der Diagramme (69%) tatsächlich vollständig korrekt sind. Die geringe 
Übereinstimmung bei der Wahl von Fehlerarten kann vermutlich auf einzelne Fehleinschätzungen 


der Probanden zurückgeführt werden. 


Um diese Ergebnisse zu bestätigen, werden in einer abschließenden Betrachtung der Ergebnisse 
einzelne Fehlerarten zu Fehlerkategorien zusammengefasst. Wie zuvor beschrieben, sind einige 
Fehlerarten verwandt, weitere können je nach Diagramm potenziell nur schwer unterschieden 
werden. Eine Folge ist, dass Probanden möglicherweise eine Fehlerart auswählen, obwohl sie eine 
andere meinen, wodurch Übereinstimmungen weniger wahrscheinlich werden. Durch die Bildung 
von Kategorien verwandter Fehlerarten kann dieser Effekt teilweise eliminiert werden. Ist die Anzahl 
der Übereinstimmungen bei Betrachtung der Kategorien größer als die Summe der Werte für die 
enthaltenen Fehlerarten, ist ein möglicher Grund der zuvor beschriebene Effekt. Andererseits werden 
potenziell auch mehr zufällige Übereinstimmungen erzeugt. Die Betrachtung von Kategorien erzeugt 
also gegebenenfalls mehr Übereinstimmungen, ist aber zugleich weniger scharf und dementsprechend 
fehlerbehaftet. Die folgenden Kategorien werden gebildet: Die ersten beiden Fehlerarten (Korreferenz 
fehlerhaft und Aktivität fehlerhaft) bilden die Kategorie Aktivitätsfehler. Reihenfolgefehler, sowie 
überzählige und fehlerhafte Aktivitäten bilden Kategorie Aktivitdten-Sequenz fehlerhaft. Die übrigen 
Fehlerarten werden zur Kategorie Kontrollstruktur fehlerhaft zusammengefasst. 
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Abbildung 9.6: Zuordnung zu den verallgemeinernden Bewertungskategorien unter Berücksichtigung des Mehrheits- 
entscheids durch je fünf Probanden pro Diagramm: Die dunkelgrünen Balken geben die Ergebnisse bei völliger 
Übereinstimmung, die mittelgrünen die Ergebnisse bei Übereinstimmung von mindestens vier Probanden und die 
hellgrünen bei Übereinstimmung von mindestens drei Probanden an. 


Eine erneute Auszählung der Bewertungen der Probanden nach diesem Schema erzeugt die in 
Abbildung 9.6 dargestellten Ergebnisse. Zum Vergleich enthält das Diagramm ebenfalls die Werte 
für die als vollständig korrekt eingestuften Diagramme. Wie zu erwarten, gibt es mehr Überein- 


stimmungen, zumindest hinsichtlich einfacher Mehrheiten. Bei Betrachtung von Fehlerkategorien 
erhalten 181 Diagramme eine mehrheitliche Bewertung (gegenüber 163 bei Betrachtung der ein- 
zelnen Fehlerarten). Dieser geringfügige Anstieg deutet darauf hin, dass der zuvor beschrieben 
Verdeckungseffekt nur selten auftritt. Die Steigerung der Anzahl an Diagrammen mit einer mehr- 
heitlichen Bewertung hat zur Folge, dass der Anteil der vollständig korrekten Diagramme mit 
62% etwas geringer ausfällt. Betrachtet man die Kategorien im Detail, zeigt sich, dass vor allem 
die ersten beiden Kategorien gegenüber den einzelnen Fehlerarten einen Zuwachs (auch im Grad 
der Übereinstimmung) verzeichnen: 35 der Diagramme werden der Kategorie Aktivitätsfehler 
zugeordnet. Etwas geringer fällt der Wert für die Kategorie Aktivitäten-Sequenz fehlerhaft (31); 
hier ist der Grad der Übereinstimmung zudem geringer. Nur vierzehn Diagramme enthalten eine 
fehlerhafte Kontrollstruktur, was einer Steigerung um lediglich zwei Anteile gegenüber der Summe 
der einzelnen Fehlerarten entspricht. Der Grund hierfür ist vermutlich, dass Kontrollstrukturen (bzw. 
in diesen enthaltene Fehler) von den Probanden besser unterschieden werden können als die übrigen 
Fehlerarten. Insgesamt bestätigt die Betrachtung der Kategorien die zuvor gewonnen Erkenntnisse. 
Der Zuwachs an Übereinstimmung bei den Fehlerkategorien gegenüber den einzelnen Fehlerarten 
ist nur gering. Folglich ergibt sich in der Bewertung der Ergebnisse ein ähnliches Bild; der Großteil 
der Diagramme wird als vollständig korrekt eingestuft. Zwar ist der relative Anteil zwangsweise 
niedriger als bei Betrachtung der Fehlerarten, allerdings dürfen auch zufällige Übereinstimmungen 
bei der Zusammenfassung zu Kategorien nicht außer Acht gelassen werden. Auch die Verteilung der 
Fehlerarten verändert sich nicht. Einzelne fehlerhafte Aktivitäten machen den Großteil aus, gefolgt 
von Fehlern in der Sequenz der Aktivitäten; Fehler in Kontrollstrukturen wurden hingegen kaum 


von den Probanden ausgemacht. 


Neben den vorgegebenen Bewertungsmöglichkeiten konnten die Probanden auch für jedes Diagramm 
Freitextantworten abgeben. Insgesamt wurde diese Möglichkeit 49 mal genutzt. Im Folgenden 
werden einzelne, repräsentative Beispiele diskutiert. Einige Probanden nutzen Freitextantworten, 
um Verbesserungsvorschläge für die natürlichsprachlichen Beschreibungen abzugeben oder um auf 
potenzielle Probleme bei der Umsetzbarkeit der Anweisungen auf dem Zielsystem hinzudeuten. 
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Diese Freitextantworten können Hinweise zu weiterführenden Fragestellungen liefern; für die 
Evaluation des Gesamtsystems sind sie jedoch ohne Wert. Zwei Beispiele dieser Art sind die 


nachfolgenden: 


(1) everything seems correct, as ordered, but if I can add some details, it should close the fridge 


after taking the orange juice 


(2) Elaboration: Armar might not know where the popcorn bag is. 


Andere nutzen die Möglichkeit zu Freitextantworten, um ihre Auswahl zu bekräftigen, oder zu 


präzisieren, wie folgenden beiden Beispiele zeigen: 


(3) should add an activity 


(4) while loop missing 


Auch diese Art der Freitextantworten bietet keinen Mehrwert. Andere Probanden fügen ihrer 
Auswahl hingegen weitere Details oder Erläuterungen hinzu, die hilfreich sind, um Fehlerursachen 
nachzuvollziehen. Die folgenden drei Freitextantworten erläutern die gewählte Fehlerart Aktivität 
fehlerhaft: 


(5) Word „too“ included in wrong activity also. 


(6) „put the plate“ „inside activate the microwave“ => „put the plate inside“ „activate the 


microwave “ 


(7) 3rd activity should remove the first word, ,,out“ and place at end of 2nd activity. 


Alle drei weisen darauf hin, dass die Erkennung der Einzelinstruktionen in den zugrundeliegenden 


Äußerungen fehlerhaft ist (siehe [Abschnitt 6.2). Die Tokensequenz wurde (teilweise) fehlerhaft 


in Einzelinstruktion getrennt, was dazu führt, dass Aktivitäten Wörter enthalten, die eigentlich 
anderen Aktivitäten zugeordnet werden sollten. Andere Freitextantworten erläutern, warum eine 


Kontrollstruktur als fehlerhaft angesehen wird: 


(8) when „if there are no fresh oranges“ is false, it means there are fresh oranges. It already 
checks once at the beginning of the task, so False check shouldn’t be necessary 


(9)  Ibelieve this needs a True/False check for „finding every piece“, because even if there aren’t 
any pieces of dishware it should still close the dishwasher 


n 


(10) I think that „then please wash the green cup“ should be with „and while you wash the cup‘ 
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In Beispiel (8)|beschreibt der Proband, warum er eine Kontrollstruktur als überflüssig ansieht. Im 
konkreten Fall ist eine zweite verzweigte Bedingung redundant, die invers zur ersten und damit 


obsolet ist. Diese Fehlerart könnte behoben werden, indem der Agent zur Synthese bedingter 
Verzweigung um eine Überprüfung auf Verzweigungen mit inverser Bedingung erweitert werden 
würde (siehe|Abschnitt 7.6.1). Das[Beispiel (9)|beschreibt eine gänzlich überflüssige Kontrollstruktur; 
eine mögliche Ursache ist eine ungenaue Regel in den Regelsätzen der Agenten zur Synthese von 
Kontrollstrukturen (siehe Abschnitt 7.6). 


Das letzte Beispiel weist darauf hin, dass eine eigentlich nebenläufige Aktivität nicht dem entspre- 
chenden Abschnitt zugeordnet wurde. Dieser Fehler lässt sich auf eine fehlerhafte Bestimmung des 


Bezugsrahmens der Kontrollstruktur zurückführen. Wie bereits in|Abschnitt 7.6.1|diskutiert, kann 


der Bezugsrahmen selbst von Menschen mitunter nicht eindeutig bestimmt werden; zukünftig könnte 
die Erkennung aber durch die Verwendung eines statistikbasierten Ansatzes optimiert werden. 


Zusammenfassend können aus der Online-Studie folgende Erkenntnisse gezogen werden: Die Aus- 
wertung der Bewertungen der Probanden hat gezeigt, dass Prof, in der Lage ist, für einen Großteil 
der Transkriptionen vollständig korrekten Pseudo-Quelltext (in Form von Aktivitätsdiagrammen) 
zu synthetisieren?| Dies gelingt, obwohl die Beschreibungen teilweise die Erzeugung umfangreicher 
und komplexer Aktivitätsdiagramme erfordern; Durchschnittlich enthalten die Diagramme etwas 
mehr als fünf Aktivitäten; das längste umfasst jedoch 24. Zudem erfordern die Beschreibungen 
die Erzeugung von 80 Kontrollstrukturen; dass mehr als eine erforderlich ist (wie im zu Beginn 
des Abschnitts diskutierten, beispielhaften Aktivitätsdiagramm), ist hingegen die Ausnahme (vier 
Fälle). Einige Aktivitätsdiagramme enthalten zudem marginale Fehler; der Grad der Fehlerhaftigkeit 
konnte jedoch in der Studie nicht bemessen werden. 


Als hauptsächliche Fehlerart haben sich fehlerhafte Aktivitäten herausgestellt (die Anweisungen im 
Quelltext entsprechen). Je nachdem, wie die Aktivitäten im konkreten Fall geartet sind, haben diese 
Fehler jedoch nicht unbedingt Auswirkungen auf die Erzeugung von Quelltext in einer konkreten 
Anwendungsdomäne. Werden nur einzelne Wörter falsch zugeordnet (wie in den Beispielen |(5) 


(6)|und|(7)), spielt dies bei der Abbildung auf Zielsystemfunktionen (bzw. Umgebungsobjekte) in 


den meisten Fällen keine Rolle (siehe |Abschnitt 7.8). Die nachfolgende Evaluation, welche die 
Synthese von Java-Quelltext für eine konkrete Anwendungsdomäne betrachtet, wird diesbezüglich 


weitere Einsichten liefern. Fehler in der Reihenfolge der Aktivitäten, sowie fehlende Aktivitäten 
stellen hingegen kritische Fehler dar, die auch bei der Erzeugung von konkretem Quelltext nahezu 
zwangsläufig zu Fehlern führen. Überzählige Aktivitäten können, müssen aber nicht problematisch 
sein; gibt es keine Entsprechung in der Anwendungsdomäne, wird für diese Anweisungen auch kein 
Quelltext erzeugt. Ein weiterer positiver Aspekt: nur wenige der synthetisierten Aktivitätsdiagramme 
enthalten fehlerhafte Kontrollstrukturen. 


° 69% oder 62% der Transkriptionen, je nachdem, ob man die einzelnen Fehlerarten, oder Kategorien zum Vergleich 


heranzieht. 
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9.3 Evaluation zur Erzeugung von Java-Quelltext 


Die zweite Evaluation bemisst, wie gut Prof, Quelltext für eine konkrete Anwendungsdomäne 
erzeugen kann. Dementsprechend wird kein Pseudo-Quelltext betrachtet; stattdessen wird Ja- 
va-Quelltext für eine konkrete Anwendungsdomäne generiert und anschließend bewertet. Als 


Anwendungsdomäne dient eine Anwendungsschnittstelle für einen Haushaltsroboter und eine 


Küchenumgebung. In Kapitel 8|wurde bereits gezeigt, dass Pro/,, Quelltext in unterschiedlichen 


Programmiersprachen (Abschnitt 8.3) und für unterschiedliche Anwendungsdomänen (Abschnitt 8.4) 


erzeugen kann. Durch die hier vorgestellte Evaluation soll zusätzlich die Güte des erzeugten Quell- 


textes quantitativ zu bemessen. 


9.3.1 Durchführung 


Als Datengrundlage für die zweite Evaluation dienen dieselben 237 Transkriptionen, die auch 
für die erste Evaluation verwendet wurden. Der Datensatz setzt sich aus allen 198 Transkrip- 
tionen der stationären Datensammlung und 39 Transkriptionen der Online-Datensammlung zu 
den ersten drei Szenarien zusammen (siehe [Abschnitt 9.2.2). Zusätzlich werden zum Vergleich 
die Audioaufzeichnung zu ebendiesen 237 Transkriptionen als Eingabe verwendet. Damit diese 


verarbeitet werden können, ist die zusätzliche Verwendung der Vorverarbeitungsfließbandstufe zur 


Mehrfach-Automatischen-Spracherkennung nötig (siehe Abschnitt 6.1). Die Fließbandstufe wird 


so konfiguriert, dass ausschließlich die Google Speech API, nachfolgend als GS,4p; bezeichnet, zur 
automatischen Erzeugung von Transkriptionen verwendet wird 0] Im Gegensatz zur ersten Studie 
wird aus den Transkriptionen und Audioaufzeichnungen konkreter Quelltext generiert und mit 
einer Musterlösung verglichen. Auf diese Weise kann die Fähigkeit des Gesamtsystems, Quelltext 
für eine konkrete Anwendungsdomäne zu erzeugen, quantitativ bemessen werden. Gleichzeitig 
ermöglicht diese Betrachtung, den wesentlichen Nachteil der ersten Evaluation auszugleichen. In der 
Online-Studie konnte nur bestimmt werden, ob ein Pseudo-Quelltext-Generat vollständig richtig ist 
oder Fehler enthält; der Anteil der fehlerhaften Bestandteile konnte nicht bestimmt werden. Durch 
die Betrachtung von Quelltext in der zweiten Evaluation kann auf Anweisungsebene die Korrektheit 
des Generats bestimmt werden. Hierzu wird für jede (händische) Transkription des Datensatzes 
eine Musterlösung erstell{!| Dieses Vorgehen ist nétig, da die Probanden die Szenarien sehr 
unterschiedlich beschreiben und dementsprechend auch verschiedenes Systemverhalten erwarten. 
Die Musterlösungen bestehen aus den erwarteten Anweisungen (bzw. API-Aufrufe). Diese werden 
bestimmt, indem die zur Beschreibung passenden Funktionen der Anwendungsschnittstelle und die 


zugehörigen Parameter bestimmt werden; Parameter können dabei Objekte der Systemumgebung 


Auf die Verwendung eines Ensembles von Systemen zur automatischen Spracherkennung wird verzichtet, da die 
Transkriptionen durch eine einzelne Web-API deutlich schneller erzeugt werden. Dies ist relevant, da im Zuge 
der zweiten Evaluation auch die Laufzeit des Gesamtsystem bestimmt werden soll. Außerdem wurde bereits in 
Abschnitt 6.1|gezeigt, dass das Ensemble nur geringfügig bessere Ergebnisse liefert als das beste Einzelsystem, die 
Google Speech API. 

Die jeweilige Musterlösung gilt selbstverständlich sowohl für die händische Transkription als auch für die zugehörige 
Audioaufzeichnung. Die Erstellung von Musterlösungen zu händischen Transkriptionen ist jedoch einfacher, da keine 
Wortfehler enthalten sind. 
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sein. Die Abfolge der Anweisungen erzeugt das (voraussichtlich vom Probanden) erwartete Sys- 
temverhalten. Zur Erzeugung einer sinnhaften Anweisungsfolge kann es nötig sein, Anweisungen 
einzufügen, die vom Nutzer nicht beschrieben wurden oder beschriebene Anweisungen zu igno- 
rieren ^| Dasselbe gilt für Parameter; die Anwendungsschnittstelle erwartet gegebenenfalls mehr 
Parameter als der Nutzer beschreibt, oder vom Nutzer beschriebene Parameter können nicht auf 
Zielsystem-Parameter abgebildet werden. Für die Musterlösungen werden nur Aufrufe erstellt, die 
konform zur Anwendungsschnittstelle sind. 


In diesem Beispiel soll das Vorgehen bei der Erstellung von Anweisungen für die Muster- 
lösungen der Evaluation demonstriert werden. Für dieses Beispiel wird eine synthetische 
natürlichsprachliche Sequenz verwendet, um mit einer kurzen Beschreibung möglichst viele 
Fälle abzudecken. 


Natürlichsprachliche Sequenz 
hey robot move to the table and stop before it then bring me the cup 
Anweisungen der Musterlösung (Pseudo-Code) 


move (Table); 
fetch(Cup, Table); 


move (Speaker); 


Erläuterung 


Zur Erstellung der Musterlösung wird der Beginn der Äußerung ignoriert, da dieser lediglich 
eine Grußformel darstellt (hey robot). Für die zweite Phrase (move to the table) kann unmittelbar 
eine Funktion der Anwendungsschnittstelle bestimmt und der Parameter abgebildet werden. 


Die nächste Phrase (and stop before it) ist für das Szenario nicht relevant, da der Roboter 
bereits beim Aufruf der move-Funktion stoppt, sobald er sein Ziel erreicht. Für die letzte Phrase 
(then bring me the cup) werden zwei Muster-Anweisungen erstellt. Die erste (fetch) hebt das 
Objekt CUP an, erwartet aber einen zweiten Parameter, der beschreibt, wo das Objekt steht, 
hier TABLE. Dieser zweite Parameter wird nicht beschrieben und müsste von Pro, inferiert 
werden. Zuletzt wird die move-Funktion hinzugefügt, da die Intension der Beschreibung ist, 
das Objekt zum Sprecher zu bringen. 


'2 Vom Nutzer beschriebene Anweisungen werden ausgelassen, wenn die Anweisung nicht zur Umsetzung einer 


zum Szenario passenden Anweisungsfolge benötigt wird oder wenn sich hinter der korrespondieren Funktion der 
Anwendungsschnittstelle ein anderes Verhalten verbirgt als der Proband erzeugen wollte. 
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Abbildung 9.7: Kastengrafik zur Verteilung der zu erzeugenden API-Aufrufe pro Musterlösung: Neben den üblichen 
Bestandteilen (Median, Quartile, Antennen und Ausreißern) wird zusätzlich der Mittelwert als Raute dargestellt. 


Neben den Anweisungen werden auch Musterlösungen für die Kontrollstrukturen erstellt. Das 
Vorgehen entspricht dem für die Anweisungen verfolgten; es wird versucht die Intension des Nutzers 
zu erfassen und Kontrollstrukturen dementsprechend zu gestalten. Sofern eine Kontrollstruktur 
die Angabe einer Bedingung erfordert, wird versucht für diese eine passende boolesche Funktion 
der Anwendungsschnittstelle zu ermitteln. Ein besonderes Augenmerk bei der Erstellung der 
Musterlösung für Kontrollstrukturen liegt auf dem Bezugsrahmen. Der Bezugsrahmen ist die 
natürlichsprachliche Entsprechung von Blöcken, die einer Kontrollstruktur zuzuordnen sind, wie 
beispielsweise ein Schleifenrumpf (siehe [Abschnitt 7.6). Der Bezugsrahmen kann häufig nicht 
eindeutig bestimmt werden und ist vom Kontext abhängig; für die Erstellung der Musterlösung wurden 


einerseits die Intension der Beschreibung des Nutzers, anderseits aber auch die Szenariobeschreibung 
betrachtet, um sinnhafte Blöcke zu bilden. 


Unter Anwendung dieser Richtlinien wurden für alle 237 Transkriptionen des Datensatzes Musterlö- 
sungen erstellt. Diese umfassen zwischen einem und 24 Aufrufe; [Abbildung 9.7]zeigt die Verteilung 
der erwarteten Aufrufe je Musterlösung als Kastengrafik. Wie der Abbildung entnommen werden 
kann, erfordern die meisten natürlichsprachlichen Handlungsanweisungen des Datensatzes die 
Erzeugung von zwei bis sechs Aufrufen; der Mittelwert liegt bei 5,36. Viele Äußerungen erfordern 
allerdings auch die Erzeugung von deutlich mehr Aufrufen (Ausreißer): Die Musterlösungen zu 29 
Handlungsanweisungen enthalten mehr als zwölf Aufrufe. Die Aufrufe beinhalten jeweils null bis 
drei Parameter. In Summe enthalten die Musterlösungen 1271 API-Aufrufe mit insgesamt 1640 
Parametern, das heißt im Schnitt 6,92 Parameter pro Transkription und 1,29 Parameter pro Aufruf. 
Außerdem wurden zur Erstellung der Musterlösungen 80 Kontrollstrukturen verwendet. 


Für die Evaluation wurde Proy_, wie in |Abschnitt 9.1) beschrieben konfiguriert; lediglich die 


Stufe zur Mehrfach-Automatischen-Spracherkennung wurde für die zweite Evaluationsvariante 
wie zuvor beschrieben dem Vorverarbeitungsfließband hinzugefügt. In der Nachverarbeitungsfließ- 
bandstufe zur Erzeugung von Quelltext wird der Besucher zur Generierung von Java-Quelltext 
genutzt. Als Anwendungsdomäne wird der Haushaltsroboter als Zielsystem in Kombination mit 
der zugehörigen Küchenumgebung als Systemumgebung verwendet (siehe [Abschnitt 5.4.3). Die 
Anwendungsschnittstelle bietet 92 Funktionen und die Umgebungsmodellierung umfasst 70 Objekte 
und sechs Objekttypen. 


Anschließend werden die Eingabedatensätze (händische und automatisch erzeugte Transkriptionen) 
durch Pro, verarbeitet und Quelltext-Generate erzeugt. Zunächst werden die händischen Tran- 
skriptionen an Pro, zur Verarbeitung übergeben und die Ausgaben gesammelt. Anschließend 
wird dem System die Vorverarbeitungsfließband zur Mehrfach-Automatischen-Spracherkennung 
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hinzugefügt. In der Folge können auch die 237 Audioaufzeichnung durch Proy,, verarbeitet 
werden; auch hier werden alle generierten Quelltexte gesammelt. Für zwei Audioaufzeichnungen 
konnte kein Quelltext generiert werden, da kein gültiger Syntaxbaum erzeugt werden konnte; in 
beiden Fällen konnte aufgrund von Wortfehlern (in den automatisch erzeugten Transkriptionen) 
keine der natürlichsprachlichen Anweisungen auf eine Zielsystemfunktion abgebildet werden (siehe 
[Abschnitt 7.8). Somit müssen sämtliche erwarteten Aufrufe dieser Datenpunkte als fehlend (false 
negatives) gewertet werden. Die übrigen 472 Quelltext-Generate (237 zu händischen und 235 zu 
automatisch erzeugten Transkriptionen) werden anschließend mit den Musterlösungen verglichen. 
Im nachfolgenden Abschnitt wird aber zunächst auf die Gesamtlaufzeit des Systems eingegangen, 
die zur Erzeugung der Generate aus den natürlichsprachlichen Äußerungen benötigt wird. 


9.3.2 Analyse der Systemlaufzeit 


Bei Systemen, die mit menschlichen Nutzern interagieren, ist ein wesentlicher Faktor für die 


Akzeptanz des Systems die Antwortzeit (engl. response time). Muss ein Nutzer zu lange auf eine 


Antwort des Systems warten, sinkt die Bereitschaft zur Nutzung [Mye94]. Um für Prof, Abschätzen 


zu können, wie hoch die Antwortzeit des Systems ist, wurde im Zuge der im vorangegangen 
Abschnitt beschriebenen Durchführung der zweiten Evaluation die Gesamtlaufzeit des Systems 
gemessen, die benötigt wird, um aus einer Eingabe (natürlichsprachliche Äußerung) eine Ausgabe 
(Quelltext-Generat) zu erzeugen. Die Laufzeit wurde sowohl für die Verarbeitung der händischen 
Transkriptionen also auch der Audioaufzeichnungen (das heißt mit zusätzlicher automatischer 
Spracherkennung durch die Google Speech API) gemessen; das bedeutet, insgesamt wurden 474 
Laufzeitmessung durchgeführt. In die Messungen geht die Zeit zur Initialisierung des Systems, der 
Fließbandstufen und der Agenten nicht ein; diese wird einmalig vorab ausgeführt. 


Die Laufzeitmessung wurde auf einem Computersystem mit folgender Konfiguration durchgeführt: 
Die verwendete CPU ist vom Typ AMD Ryzen 5 3600; diese besteht aus sechs physischen und zwölf 
virtuellen Prozessorkernen. Die Taktung beträgt für alle Kerne 3,6 GHz. Weiterhin verfügt die CPU 
über einen 384 KB großen L1-Cache, sowie einem 3-MB-L2- und einem 32-MB-L3-Cache. Der 
Hauptspeicher ist ein 16 GB großer RAM-Speicher vom Typ DDR4 mit einer Taktung von 2133 
MH2"| Das verwendete Betriebssystem ist Ubuntu Linux in der Version 20.10. 


Die Ergebnisse der Messungen sind in Abbildung 9.8 dargestellt; die Kastengrafik zeigt die Verteilung 
der Laufzeiten je Eingabe, einerseits für die händischen Transkription und anderseits bei Verwendung 


der GS4p; zur automatischen Spracherkenneif'*] Wie der Abbildung entnommen werden kann, beträgt 
die Laufzeit für die Verarbeitung einer Eingabe bis zur Erzeugung des Quelltext-Generats bei 


Die GPU des Systems ist für die Laufzeitmessung nicht relevant, da Pro, in der aktuellen Konfiguration diese 
nicht nutzt. 

Die Laufzeiten liegen teilweise über den für die Evaluation festgelegten Schwellwert (fünfzehn Sekunden) für den 
Funktionswächter-Agenten, der auf eine Zeitüberschreitung prüft (siehe Abschnitt 7.11). Der Funktionswächter- 
Agenten überwacht allerdings nur die Ausführung der Agenten innerhalb EAS (siehe[Abschnitt 4.2.4); das bedeutet, 
die Laufzeiten der Vor- und Nachverarbeitungsfließbänder sind nicht beschränkt und addieren sich zur (auf fünfzehn 
Sekunden beschränkten) Laufzeit der EAS. Wie nachfolgend diskutiert nimmt insbesondere bei Verwendung der 
GSapr das Vorverarbeitungsfließband einen Großteil der Laufzeit in Anspruch. 
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Abbildung 9.8: Kastengrafiken zur Verteilung der Gesamtlaufzeit von Pro/, pro Eingabe: Die obere Grafik (GSapr) 
veranschaulicht die Verteilung der Laufzeiten für Audioaufzeichnungen (als Eingabe), die mithilfe der GS4p; automatisch 
transkribiert werden; die untere zeigt die Verteilung für händische Transkriptionen (Trans.). Neben den üblichen 
Bestandteilen (Median, Quartile, Antennen und Ausreißern) wird zusätzlich der Mittelwert als Raute dargestellt. 


händischen Transkriptionen in den meisten Fällen zwischen vier und sechs Sekunden; der Mittelwert 
liegt bei 6,1 Sekunden. Für 75% der Eingaben beträgt die Laufzeit gut 8 Sekunden oder weniger. 
Es gibt allerdings auch Ausreißer nach oben: Einige wenige Eingaben benötigen über zwanzig 
Sekunden; die höchste Laufzeit einer händischen Transkription beträgt 26 Sekunden. Insgesamt 
gelingt die Verarbeitung der Transkriptionen aber ausreichend schnell. Wird hingegen die GSypr (als 
zusätzliche Vorverarbeitungsfließbandstufe) für die automatische Spracherkennung zur Verarbeitung 
von Audioaufzeichnung verwendet, steigt die Laufzeit deutlich: Die meisten Audioaufzeichnungen 
können jedoch innerhalb von knapp sieben bis zwölfeinhalb Sekunden verarbeitet werden; die 
mittlere Laufzeit beträgt 11,2 Sekunden. Diese Werte zeigen, dass Prog% prinzipiell in der Lage 
ist, Ergebnisse nahezu in Echtzeit zu liefern. Allerdings endet das obere Quartil bei Verarbeitung 
von Audioaufzeichnung erst bei einer Laufzeit von zwanzig Sekunden; einige wenige Ausreißer 
benötigen sogar über 30 Sekunden bishin zu einem Maximum von 36,7 Sekunden. Die Laufzeit für 


diese Eingaben ist (noch) zu hoch. 


Insgesamt zeigt sich, dass die Laufzeit von der Länge der Eingaben abhängt. Dies gilt insbesondere 
für die Verarbeitung von Audioaufzeichnung. Je länger eine Aufzeichnung, desto länger benötigt 
die GS,p; zur Transkription. Da die GS,p; bei der Verarbeitung von Audioaufzeichnung ohnehin 
den größten Anteil an der Laufzeit hat, fällt diese Beobachtung besonders ins Gewicht und 
erklärt, warum die Laufzeiten deutlich über denen für händische Transkriptionen liegen. Aber auch 
andere Analysen haben erhebliche Anteile an der Laufzeit: Die Erkennung semantischer Rollen 
benötigt vergleichsweise viel Zeit, da zur Verwendung von SENNA (siehe|Abschnitt 6.4) zunächst 
ein externer Prozess gestartet werden muss; die Disambiguierung von Wortbedeutungen mittels 
Babelfy ist hingegen aufwendig, da Anfragen an eine Web-API gestellt werden müssen. Ein Agent, 
dessen Sprachanalysen für längere Eingaben deutlich an Komplexität gewinnen, ist der Agent zur 
Modellierung des sprachlichen Kontextes (siehe[Abschnitt 7.4). Je länger die Eingabe, desto mehr 
Hierarchieebenen umfasst das erzeugte Kontextmodell. Das Kontextmodell erfasst dadurch zwar 


Zusammenhänge zwischen einzelnen Entitäten umfassender als bei kurzen Eingaben; gleichzeitig 


steigt die Laufzeit aber auch überproportional zur Länge der Eingabe. 
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Tabelle 9.1: Evaluationsergebnisse für die Abbildung von natürlichsprachlichen Handlungsanweisungen auf Quelltext: Die 
Tabelle zeigt die Ergebnisse für die Abbildung von Handlungsanweisungen auf Einzelbestandteile der Anwendungsdomäne, 
das heißt Funktionsaufrufe (Fkt.) und Parameter (Par.) sowie für die Erzeugung von vollständigen API-Aufrufen (Auf.). 
Angegeben sind jeweils die Ergebnisse für die händischen Transkriptionen (Trans.) und für die automatisch durch die 
Google Speech API erzeugten (GSapı) sowie die absolute Differenz zwischen beiden Ergebnissen (A). 


Präzision Ausbeute Fi 
Trans. GS Apr A | Trans. GSapi A | Trans. GSapy A 
Fkt. | 0,916 0,918 + 0,002 | 0,944 0,834 — 0,110 | 0,930 0,874 — 0,056 
Par. | 0,827 0,830 + 0,003 | 0,809 0,688 — 0,121 | 0,818 0,752 — 0,066 
Auf. | 0,736 0,720 — 0,016 | 0,757 0,656 — 0,101 | 0,746 0,687 — 0,059 


Zusammenfassend zeigt die Analyse der Systemlaufzeit einerseits, dass händische Transkriptio- 
nen bereits überwiegend ausreichend schnell verarbeitet werden können, um eine angemessene 
Antwortzeit des Systems zu gewährleisten. Andererseits ist die Laufzeit zur Verarbeitung von 
Audioaufzeichnungen bei langen Eingagen noch zu hoch, als dass Pro, als (nahezu) echtzeitfähig 
gelten könnte. Problematisch ist in diesem Zusammenhang vor allem, dass Pro/, in der aktuellen 
Systemkonfiguration Äußerungen zunächst vollständig aufzeichnet und erst danach mit der weiteren 
Verarbeitung beginnt. Zukünftig könnten die Sprachanalysen bereits mit einem Teil der Eingabe 
begonnen werden. Die meisten Web-APIs zur automatischen Spracherkennung unterstützen asyn- 
chrone Erkennungen, auch die GSapr. Die Architektur PARSE und das System Prog% unterstützen 
diesen Ansatz ebenfalls prinzipiell; nachträglich durch ein Spracherkennungssystem gelieferte Teile 
der Eingabe könnten einfach im Prof, Graphen als neue Knoten angehängt werden. 


9.3.3 Auswertung 


Die durch Prof% generierten Quelltexte werden folgendermaßen ausgewertet. Zunächst werden 
die einzelnen synthetisierten Aufrufe betrachtet; die Trefferquote bei der Abbildung von natürlich- 
sprachlichen Anweisungen auf Funktionen des Zielsystems wird bewertet. Dabei wird einerseits die 
Korrektheit der Einzelbestandteile der Aufrufe untersucht; das bedeutet, es wird jeweils separat 
betrachtet, ob die richtigen Funktionen ausgewählt wurden und ob Phrasen der natürlichsprach- 
lichen Äußerung richtig auf potenzielle Parameter abgebildet wurden. Andererseits wird auch 
die Korrektheit vollständiger Aufrufe, die aus den Einzelbestandteilen zusammengesetzt werden, 
untersucht. Sowohl für die Einzelbestandteile als auch für die vollständigen Aufrufe werden jeweils 
die Präzision, die Ausbeute und das Fı-Maß bestimmt (siehe[Abschnitt 2.4). Anschließend wird 
analysiert, ob die Kontrollstrukturen an den richtigen Stellen eingesetzt wurden und ob - falls 


erforderlich bzw. durch die Musterlösung gefordert — korrekte Bedingungen formuliert wurden. 


Zunächst werden die synthetisierten API-Aufrufe der Quelltext-Generate betrachtet. Durch Vergleich 
mit den Musterlösungen ergeben sich die in|Tabelle 9.1|gezeigten Werte für Präzision, Ausbeute und 


Fı-Maß. Die Bestimmung der passenden Funktion zu einer natürlichsprachlichen Äußerung gelingt 
für die händischen Transkriptionen (Spalte Trans.) sehr präzise (0,916); die erreichte Ausbeute ist 
mit einem Wert von 0,944 sogar noch besser. Nur 71 Handlungsanweisungen konnten nicht auf 
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einen Funktionsaufruf abgebildet werden (falsch negative) und es wurden lediglich 110 überzählige 
Aufrufe ermittelt (falsch positive). Insgesamt ergibt sich damit für das Fı-Maß ein sehr guter 
Wert von 0,930. Die Ergebnisse für die Audioaufzeichnungen (Spalte GS4pr) zeigen, dass auch bei 
Verwendung eines Systems zur automatischen Spracherkennung passende Funktionen sehr präzise 
ermittelt werden können (0,918). Allerdings Kann die gegenüber den händischen Transkriptionen 
sogar etwas höhere Präzision darauf zurückgeführt werden, dass insgesamt deutlich weniger Aufrufe 
erzeugt werden. Dadurch werden zwar nur 94 fehlerhafte Funktionen generiert (false positives); 
allerdings fehlen auch deutlich mehr der erwarteten Aufrufe (false negatives), insgesamt 211. Folglich 
fällt die Ausbeute mit 0,834 (im Vergleich zu den händischen Transkriptionen) deutlich geringer aus. 
Dadurch wird für das Fı-Maß mit 0,874 ein guter aber dennoch im Vergleich um 0,056 geringer 
Wert erzielt. 


Als nächstes wird die Zuordnung von natürlichsprachlichen Phrasen zu Elementen der Anwendungs- 
domäne betrachtet, die potenziell als Parameter verwendet werden können. Die Bestimmung von 
Parameter-Kandidaten funktioniert insgesamt ähnlich gut wie die Bestimmung der Funktionen. 
Für die händischen Transkriptionen wird eine gut Präzision bei der Abbildung erzielt (0,827; die 
Ausbeute ist auch nur geringfügig schlechter (0,809). Das zeigt sich auch in den absoluten Werten: 
313 der 1639 erwarteten Parameter wurden nicht abgebildet (falsch negative), wohingegen 277 
überzählige erzeugt wurden (falsch positive). Dadurch ergibt sich mit 0,818 ein um 0,112 geringer 
(als bei der Betrachtung der Funktionsaufrufe) aber nichtsdestotrotz guter Wert für das Fı-Maß. Die 
Ergebnisse für die Audioaufzeichnungen zeigen für die Parameter-Kandidaten einen ähnlichen Trend 
für die Funktionen. Auch hier ist die Präzision gegenüber den händischen Transkriptionen leicht 
besser (0,830); allerdings geht dies erneut zu Lasten der Ausbeute, die mit einem Wert von 0,688 
deutlich geringer ausfällt. Insgesamt wurden nur 231 überzählige Parameter-Kandidaten erzeugt, 
allerdings auch 511 nicht gefunden. 


Aus den Einzelbestandteilen setzt Pro, vollständige API-Aufrufe zusammen, die konform zur 
Schnittstelle des Zielsystems sind (siehe Abschnitt 7.8.1). Dementsprechend sind bei der Evaluation 
der vollständigen API-Aufrufe die erreichbaren Werte zwangsweise niedriger als die Werte bei 


Betrachtung der Einzelbestandteile; sobald ein Bestandteil falsch ist, ist der gesamte API-Aufruf 


falsch. Daher ist es ein sehr gutes Ergebnis, dass die in Tabelle 9.1|gezeigten Werte für API-Aufrufe 


sowohl für die händischen Transkriptionen als auch für die Audioaufzeichnungen so nah bei 
den Werten für die Einzelbestandteile liegen. Für die händischen Transkriptionen bewegen sich 
Präzision (0,736) und Ausbeute (0,757) auf einem ähnlichen Niveau. Insgesamt werden 964 der 
1271 API-Aufrufe vollständig korrekt erzeugt. Dementsprechend wird für das F,;-MaB mit 0,746 
auch ein guter Wert erzielt. Bei den Audioaufzeichnung fällt die Ausbeute (0,656) erneut deutlich 
gegenüber der Präzision ab (0,720). Trotzdem werden auch bei Verwendung der GS, p; ein Großteil 
der erwarteten Aufrufe generiert: 834 von 1271. Das Fı-Maß erreicht aufgrund der geringen 
Ausbeute allerdings nur einen Wert von 0,687. Dass dieser jedoch nur um 0,059 geringer ausfällt 
als für die händischen Transkriptionen zeigt, dass Proy,, zwar unter optimalen Bedingungen 
(händische Transkriptionen) die besten Ergebnisse erzielt, bei Verwendung der GS,4p; (als System zur 
automatischen Spracherkennung) aber bereits zum derzeitigen Stand der Technik als Gesamtsystem 
in der Lage ist, API-Aufrufe mit guter Präzision und ordentlicher Ausbeute zu generieren. 
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Die fehlerhaften und fehlenden API-Aufrufe wurden näher untersucht; dabei konnten die nachfol- 
genden Aspekte als hauptsächliche Fehlerquellen ausgemacht werden. Das wesentliche Problem 
bei der Generierung von API-Aufrufen anhand von gesprochenen Äußerungen, die mithilfe eines 
Systems zur automatischen Spracherkennung transkribiert wurden, sind die enthaltenen Wortfehler. 
Wird ein Wort von der GSapr falsch transkribiert, kann es in vielen Fällen nicht mehr korrekt auf 
eine Funktion oder einen Parameter abgebildet werden. Da mindestens ein Bestandteil fehlt, kann 
dementsprechend auch der erwartete vollständige API-Aufruf nicht generiert werden. Es zeigt sich 
jedoch, dass aufgrund von Wortfehlern nur vergleichsweise wenige falsch positive Abbildungen 
erzeugt werden. Dieses Resultat kann auf die im Agent zur Erzeugung von Methodendefinitionen und 
Skripten eingesetzten Schwellwerte bei der Abbildung zurückgeführt werden (siehe|Abschnitt 7.8.1). 
Andererseits gelingt es in einigen Fällen trotz Wortfehlern, eine passende Abbildung zu finden. 


Beispielsweise wird das Wort cupboard vereinzelt durch die GS,p; als carport oder cardboard 
transkribiert. Aufgrund der (durch die Ontologie-Anbindung angebotenen) unscharfen Suchstrategi- 
en (siehe Abschnitt 5.4.2) erhält das Ontologie-Individuum Cupboard trotzdem in diesen Fällen 
die höchste Abbildungsbewertung. Alle weiteren Fehlerquellen betreffen sowohl händische als 


auch automatisch erzeugte Transkriptionen, wobei viele durch etwaige Wortfehler verstärkt werden. 
Eine solche Fehlerquelle ist, wie auch schon bei der vorangegangenen Evaluation identifiziert, die 
teilweise fehlerhafte Aufteilung der natürlichsprachlichen Äußerungen in einzelne Instruktionen 
(siehe [Abschnitt 6.2). Werden die Äußerungen falsch geteilt, werden entweder eigentlich zusam- 
menhängende Phrasen getrennt oder eine Instruktion enthält mehrere Handlungsanweisungen; in 
beiden Fällen ist eine korrekte Abbildung auf Zielsystemfunktionen nahezu ausgeschlossen. Eine 
weitere bereits aus der vorangegangenen Evaluation bekannte Fehlerquelle sind Korreferenzen; 
fehlerhafte und fehlende Korreferenzen führen vor allem dazu, dass Parameter nicht korrekt bestimmt 
werden können. Zuletzt zeigt sich, dass einige Probanden ihre Beschreibungen so formulierten, dass 
eine Abbildung auf Zielsystemfunktion nicht möglich ist; unter anderem nutzen einige Probanden 
eine ungewöhnliche Wortwahl, verwendeten Synonyme, die nicht aufgelöst werden konnten, oder 
tätigten grammatikalisch falsche Äußerungen | Die nachfolgenden Beispiele zeigen drei solche 
ungewöhnlichen (bzw. fehlerhaften) Formulierungen aus der stationären Datensammlung, die durch 
Profi; 
konnten. Die fehlerhaften Bestandteile sind jeweils fettgedruckt: 


nicht (oder nicht vollständig) auf Zielsystemfunktion bzw. -parameter abgebildet werden 


(1) take the dirty dishes and put it into the dishwasher 
(2) take all the dirty dishes into the dishwasher 


(3) searched the orange juice 


Von den 80 in den Musterlösungen definierten Kontrollstrukturen wurden für die händischen 
Transkriptionen alle von Pro, erzeugt; es wurden zudem keine überzähligen Kontrollstrukturen 
generiert. Auch bei Verwendung der Audioaufzeichnungen als Eingabe werden keine überzähligen 


5 Eine Ursache für diese Art von Fehler ist höchstwahrscheinliche mangelnde Sprachkompetenz; die Probanden, die 


zur stationären Datensammlung beitrugen, sind alle Nicht-Muttersprachler (siehe|Abschnitt 5.5.2). 
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Kontrollstrukturen erzeugt. Allerdings werden fünf laut Musterlösung erwartete Kontrollstrukturen 
nicht erzeugt: die GSapr transkribiert in diesen Fällen Wörter falsch, die als Schlüsselwörter 
für die Erkennung der Kontrollstrukturen verwendet werden (siehe [Abschnitt 7.6). Wird kein 
Schlüsselwort gefunden, wird durch die Agenten auch keine Kontrollstruktur erzeugt. Auch die 


erzeugten Kontrollstrukturen sowohl für die händischen als auch die automatischen Transkriptionen 
nicht frei von Fehlern; teilweise wurde der Bezugsrahmen falsch bestimmt und dadurch fehlerhafte 
Blöcke gebildet (siehe [Abschnitt 7.6). Die Blöcke enthalten entweder zu viele oder zu wenige 
Anweisungen. Teilweise können Fehler dieser Art auch auf nicht synthetisierte oder überzählige 


API-Aufrufe zurückgeführt werden; dementsprechend ist die Betrachtung der Kontrollstrukturen 
nicht unabhängig von der zuvor angestellten Betrachtung der API-Aufrufe. Für die händischen 
Transkriptionen sind 22 von 144 Bezugsrahmen fehlerhaft, was einer Genauigkeit von 84,7% 
entspricht. Bei Verwendung der Audioaufzeichnungen als Eingabe sind hingegen 57 Bezugsrahmen 
falsch (60,4% Genauigkeit). Auch die synthetisierten Bedingungen sind teilweise fehlerhaft. In 
einigen Fällen konnte keine passende (boolesche) Funktion der Anwendungsschnittstelle bestimmt 
werden {f| Außerdem scheinen Wortfehler bei der Erkennung der Bedingungen einen großen 
Einfluss zu haben, denn insgesamt können für die Audioaufzeichnungen nur 37 von 69 Bedingungen 
generiert werden (53,6% Genauigkeit). Für die händischen Transkriptionen sind immerhin 55 
korrekt, was einer Genauigkeit von 79,7% entspricht. Ein fehlerhafter Bezugsrahmen und eine falsche 
Bedingung treten häufig in derselben Kontrollstruktur auf; die Kontrollstruktur Nebenläufigkeit 
erfordert zudem keine Bedingung. Daher ergibt sich die Korrektheit vollständiger Bedingung 
(bestehend aus Bedingung und Bezugsrahmen) nicht aus dem Produkt der Genauigkeiten der zuvor 
bestimmten Werte. Für händische Transkriptionen können 57 von 80 Kontrollstrukturen vollständig 
korrekt erzeugt werden (71,3%); für Audioaufzeichnungen sind es hingegen nur 41 (51,3%). 


Zusammenfassend konnte die zweite Evaluation zeigen, dass Prog% auch für eine konkrete 
Anwendungsdomäne Quelltext (in diesem Fall Java) generieren kann. Insbesondere die Erzeugung 
einzelner Anweisungen (das heißt Aufrufe an eine Zielsystem-API) funktioniert in den meisten 
Fällen zuverlässig: für das Fı-Maß wird bei der Betrachtung einzelner Aufrufe ein Wert von 
0,746 für händische Transkriptionen erreicht; für die Audioaufzeichnung wird ein nur geringfügig 
schlechterer Wert von 0,687 erzielt. Wie zu erwarten, haben Wortfehler, die durch die automatische 
Spracherkennung entstehen, den stärksten negativen Einfluss auf die Ergebnisse (im Vergleich zu den 
händischen Transkriptionen). Allerdings hat sich auch gezeigt, dass durch die bei der Abbildung (von 
natürlichsprachlichen Phrasen auf Zielsystemfunktionen und -parameter) verwendeten unscharfen 
Suchstrategien dazu führen, dass trotz vereinzelten Wortfehlern korrekte API-Aufrufe erzeugt 
werden können. Bei der Erzeugung von Kontrollstrukturstrukturen wirken sich Wortfehler hingegen 
stärker aus, da die angewendeten Verfahren auf bestimmte Schlüsselwörter bzw. -phrasen angewiesen 
sind. Daher können anhand von Audioaufzeichnung nur 51,3% der Kontrollstrukturen vollständig 
korrekt erzeugt werden. Für händische Transkriptionen werden hingegen immerhin 71.3% der 


Proj; kann zum aktuellen Stand nur Bedingungen synthetisieren, die auf eine boolesche Funktion der Zielsystem- 
schnittstelle abgebildet werden können. 

Um dieses Problem zu lösen, könnte zukünftig ein Pro/,-Agent entwickelt werden, der dediziert boolesche 
Bedingungen prüft bzw. aus gesprochenen Außerungen prüfbare Bedingungen erzeugt. Beispielsweise könnte ein 
solcher Agent anhand der in den Umgebungsontologien modellierten Zustände von Objekten Bedingungen ableiten. 
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Kontrollstrukturen richtig generiert. Die Injektion von Kontrollstrukturen in Skripte ist dement- 
sprechend generell verbesserungswürdig. Insgesamt sind 84 (35,4%) der 237 anhand händischer 
Transkriptionen erzeugter Quelltext-Generate vollständig fehlerfrei, für die Audioaufzeichnungen 
sind es immerhin 75 (31,6%). Vor allem Skripte, die aus weniger als sieben Anweisungen bestehen, 
sind häufiger korrekt und tragen dementsprechend viel zu diesem Ergebnis bei'8] 


9.4 Evaluation der Synthese von 
Methodendefinitionen 


In der dritten und abschließenden Evaluation des Gesamtsystems wird die Fähigkeit von Prof, 
untersucht, neue Funktionalität anhand von natürlichsprachlichen Beschreibungen zu erlernen. 
Innerhalb der intrinsischen Evaluation des Agenten zur Synthese von Methodendefinitionen und 
Skripten konnte zwar bereits gezeigt werden, dass dies möglich ist (siehe[Abschnitt 7.8.2). Allerdings 
wurde dieser Aspekt bisher nur unter Verwendung von Mustereingaben für einen Agenten und 


noch nicht unter Verwendung des Gesamtsystems untersucht. Zur weiteren Abgrenzung von der 
Evaluation des Agenten wird für die hiesige Evaluation ein neuer Datensatz erstellt, der aus 
Beschreibungen zu zwei neuartigen Szenarien besteht, die über eine Online-Studie gesammelt 
werden. Als Anwendungsdomäne dient wie zuvor der Haushaltsroboter in seiner Küchenumgebung 
(siehe Abschnitt 5.4.3). Auf dieser Grundlage wird zunächst bestimmt, wie gut Pro, das Lehren 
neuer Funktionalität von einfachen Handlungsanweisungen unterscheiden kann. Außerdem wird die 
Qualität der synthetisierten Methodennamen bewertet. Zuletzt wird die Treffergenauigkeit bei der 
Auswahl der API-Aufrufe (und Parameter) zur Bildung der Methodenrümpfe bemessen. 


9.4.1 Durchführung 


Die Datengrundlage für die Evaluation wird durch eine Online-Studie gebildet. Für die Durchführung 
der Studie wurde wiederum die Plattform Prolific verwendet. Der Studienaufbau entspricht im 
Wesentlichen dem der Online-Datensammlung (siehe [Abschnitt 5.5.3). Die Studienteilnehmer 
sollen natürlichsprachliche Lehrbeschreibungen für den Haushaltsroboter zu Szenarien abgeben. 


Der für die Evaluation verwendete Studienbogen umfasst zwei Szenarien, die nicht Teil der 
Online-Datensammlung waren} 


e Szenario A: Spülmaschine einschalten] 


e Szenario B: Müsli zubereiten 


Dass kurze Skripte eher korrekt sind als längere folgt aus einer einfachen wahrscheinlichkeitstheoretischen Betrachtung. 
Für jede synthetisierte Anweisung ist die Wahrscheinlichkeit (nahezu) gleich groß, einen Fehler zu produzieren. 
Daher steigt die Wahrscheinlichkeit, dass ein Quelltext-Generat mindestens einen Fehler aufweist, mit jeder weiteren 
Anweisung. Dasselbe gilt für Kontrollstrukturen. Allerdings gibt es bei deren Erzeugung drei potenzielle Fehlerquellen: 
die Bedingung, die Blockgröße und die Positionierung. 

Zur Unterscheidung von den Szenarien der Online-Datensammlung werden die Szenarien mit A und B benannt. 


X . . . . . . 
2 Das Szenario entspricht dem Beispielszenario der Online-Datensammlung. 
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Wie auch schon im Studienbogen der Online-Datensammlung wird den Studienteilnehmern die 
Aufgabe anhand eines Beispielszenarios erläuterf?!| Nach der Einführung, die aus einer kurzen 
Beschreibung der Zielstellung der Studie, einer Einführung in den Studienaufbau und dem Beispiels- 
zenario besteht, werden die Probanden aufgefordert natürlichsprachliche Beschreibungen zu den 
Szenarien abzugeben. Die Beschreibungen können in ein dafür vorgesehenes Textfeld eingegeben 
werden und sollen möglichst spontan verfasst werden. Inhaltlich soll einem Haushaltsroboter eine 
neue Funktion gelehrt werden; die Probanden sollen die Zwischenschritte beschreiben, die nötig 
sind, um die Fähigkeit zu erlernen, und die neue Funktionalität benennen. 


Die Studie wurde für 110 Teilnehmer freigegeben; die Einreichungen von neun Teilnehmern wurden 
nachträglich aussortiert, da sie keine sinnhaften Beschreibungen enthielten. Die so entstandene 


Datensammlung umfasst dementsprechend je 101 Beschreibungen pro Szenario. [Tabelle 9.2|gibt 


einen Überblick über den Umfang der Datensammlung. Die Beschreibungen enthalten in Summe 
8375 Wörter, wobei ein deutlicher Unterschied zwischen den beiden Szenarien besteht. Während die 
Beschreibungen zu Szenario A im Durchschnitt lediglich aus gut 29 Wörtern bestehen, sind es bei 
Szenario B knapp 54. Ein Großteil der Probanden beschreibt zum Lehren der Funktionalität Müsli 
zubereiten in Szenario B mehr Arbeitsschritte. Die Beschreibungen beider Szenarien umfassen 
zusammengenommen im Durchschnitt gut 41 Wörter und damit deutlich mehr als die Beschreibungen 
der Online-Datensammlung, die durchschnittlich nur aus 31 Wörtern bestehen. 


Neben den Beschreibungen wurden (wie auch bei den anderen Online-Studien) anonymisiert 
persönliche Daten aus den Profilen der Nutzer von Prolific übermittelt??] In der Studie überwiegt der 
Anteil der weiblichen Teilnehmer (57%) leicht gegenüber den männlichen (43%). Die Alterspanne 
reicht von neunzehn bis 72 Jahren; das durchschnittliche Alter liegt mit 32,11 etwas über denen 


der anderen Online-Studien (siehe Abschnitt 5.5.3.2 und Abschnitt 9.2.2).|Abbildung 9.9|zeigt die 


Kastengrafik zur Altersverteilung der Probanden. Diese offenbart, dass der Großteil der Probanden 


zum Zeitpunkt der Teilnahme zwischen 23 und 37 Jahre alt waren. 50% der Probanden haben in 
ihrem Profil Englisch als Muttersprache hinterlegt. Dementsprechend ist auch die am häufigsten 
angegebene Nationalität britisch (33), gefolgt von US-amerikanisch (16) und portugiesisch (11). 


Für die Evaluationen werden aus dem Datensatz je 50 Beschreibungen pro Szenario ausgewählt, das 
heißt in Summe 1002] Zu jeder Beschreibung werden Musterlösungen erstellt. Hierzu wird zunächst 
bestimmt, ob es sich bei der Beschreibung um einen Versuch, eine Funktion zu lehren, handelt oder 
ob der Proband lediglich eine Reihe von auszuführenden Handlungsanweisungen beschrieben hat. 
Nur für die lehrenden Beschreibungen sollte Prof, eine neue Methode synthetisieren, wohingegen 
aus den nicht-lehrenden Beschreibungen Skripte generiert werden sollten. Außerdem werden die 
erwarteten Anweisungen (das heißt API-Aufrufe), die Bestandteil des Methodenrumpfs (bzw. 
der Skripte) sein sollten, bestimmt. Für die Methodensignatur wird vorab keine Musterlösung 
bestimmt; die synthetisierten Signaturen werden stattdessen nachträglich manuell bewertet. Auch 


Als Beispielszenario wird das zweite Szenario der Online-Datensammlung Kaffee zubereiten verwendet. 

Da es sich um freiwillige Angaben handelt, sind diese teilweise unvollständig. 

Durch diese Auswahl, kann der Umfang der Evaluation eingeschränkt werden. Dies ist nötig, da einerseits ein Teil der 
Evaluation partiell manuell erfolgt; die Bewertung der synthetisierten Methodensignaturen, kann nur nachträglich 
beurteilt werden (siehe) Abschnitt 7.8.2). Anderseits ist auch die Erstellung der Musterlösung für die Evaluation der 
Methodenrümpfe aufwendig. 
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Tabelle 9.2: Statistiken zur Datensammlung zur Evaluation der Methodenerzeugung: Die Tabelle gibt pro Szenario der 
Online-Studie an, wie viele Probanden jeweils teilgenommen haben und wie viele Beschreibungen dabei entstanden sind. 
Zudem sind jeweils die Gesamtanzahl und die Durchschnittswerte der Wörter der Beschreibungen angegeben. 


Szenario Probanden Beschreibungen Wörter (gesamt) Wörter (durchschnittlich) 


A 110 101 2930 29,010 
B 110 101 5448 53,941 
Alle 110 202 8378 41,475 


15 20 25 30 35 40 45 50 55 60 65 70 75 
Alter 


Abbildung 9.9: Kastengrafik zur Altersverteilung der Probanden der Online-Studie zur Evaluation der Methodensynthese: 
Neben den üblichen Bestandteilen (Median, Quartile, Antennen und Ausreißern) wird zusätzlich der Mittelwert als Raute 
dargestellt. 


Tabelle 9.3: Statistiken zu den für die Evaluation der Methodenerzeugung verwendeten Beschreibungen: Die Tabelle gibt 
pro Szenario und in Summe an, wie viele Beschreibungen für die Evaluation ausgewählt wurden, wie viele von diesen 
die Definition einer neuen Funktion beschreiben (lehrend) und wie viele API-Aufrufe für die Methodenrümpfe (bzw. 
Skripte) erwartet werden (laut Musterlösung). 


Beschreibungen lehrend nicht-lehrend API-Aufrufe 


Szenario A 50 44 6 158 
Szenario B 50 34 16 315 
Alle 100 78 22 473 


Kontrollstrukturen werden nicht betrachtet, da keine in den Beschreibungen der Probanden enthalten 


sind*+| Tabelle 9.3 zeigt den Umfang des Datensatzes sowie die zu erwarteten Methodendefinitionen 


(lehrende Beschreibungen) und API-Aufrufe (gemäß der Musterlösung). Die Beschreibungen zu 
Szenario A sind im Vergleich zu denen zu Szenario B zu einem größeren Anteil lehrend; allerdings 
sollten zu den Beschreibungen zu Szenario B fast doppelt so viele API-Aufrufe generiert werden] 


Die 100 ausgewählten Beschreibungen werden an Pro, zur Verarbeitung übergeben. Das System 


ist wie in|Abschnitt 9.1|beschrieben konfiguriert. Als Anwendungsdomäne dient — passend zu den 


Szenarien — der Haushaltsroboter (ARMAR-III) und die zugehörige Küchenumgebung. Die von 
Profi, erzeugten Methodendefinitionen und Skripte können anschließend mit den Musterlösungen 
verglichen und bewertet werden. 


Der Grund hierfür liegt in den Szenarien, die sich als Anweisungsfolge beschreiben lassen, ohne dass Verzweigungen 
nötig wären. Da sich keine Handlungen wiederholen sollen, ist es auch nicht nötig Schleifen zu beschreiben; auch die 
nebenläufige Handlungen werden nicht erwartet. 

> Diese Beobachtung korrespondiert mit dem in|Tabelle 9.2]dokumentierten Wortumfang der Beschreibungen zu den 
Szenarien. 
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9.4.2 Auswertung 


Die Qualität der von Pro, erzeugten Methodendefinitionen und Skripte wird folgendermaßen 
bemessen. Zunächst wird untersucht, in wie vielen Fällen Prof, in der Lage war, den Wunsch eine 
neue Funktion zu lehren (Methodendefinition) von der Beschreibung einfacher Handlungsanweisun- 
gen (Skripterzeugung) zu unterscheiden. Anschließend werden die synthetisierten Methodennamen 
analysiert und bestimmt, wie häufig ein passender Name gewählt wurde. Zuletzt werden die in 
den Methodenrümpfen und Skripten enthaltenen Anweisungen untersucht. Dabei wird zwischen 
einzelnen Bestandteilen (Methodenname und Parametern) sowie vollständigen Aufrufen an die 
Anwendungsschnittstelle unterschieden. In beiden Fällen werden jeweils die Präzision, die Ausbeute 
und das F}-Maß bestimmt. 


Von den 100 Beschreibungen des Datensatzes stellen laut Musterlösung 78 eine Methodendefinition 
dar, für die übrigen 22 sollten hingegen Skripte erzeugt werden. Prof, ordnet in der Evaluation 85 
der 100 Beschreibungen richtig einer der beiden Kategorien zu, wobei keine Tendenz bei der Art 
des Fehlers auszumachen ist; es werden anteilig ähnlich viele Äußerungen nicht als Beschreibung 
einer neuen Funktion erkannt, obwohl sie das laut Musterlösung sind, wie umgekehrt. Insgesamt 
erzeugt Prof, aus 73 Beschreibungen eine Methodendefinition, davon 39 für Szenario A und 34 
für Szenario B. Für die 73 synthetisierten Methodennamen soll anschließend analysiert werden, 
ob ein passender Methodenname für die Methodensignatur gewählt wurde. Ein Methodenname 
gilt dabei dann als passend, wenn er die angebotene Funktionalität der neu geschaffenen Methode 
beschreibt und darüber hinaus keine weiteren überflüssigen oder unpassenden Wörter enthält. Die 
Wahl eines passenden Methodennamens ist deshalb wichtig, weil die neue Methode anhand dieses 
Namens später durch den Nutzer verwendet werden kann. Die Einordnung nach passenden und 
unpassenden Namen soll anhand einiger Beispiele verdeutlicht werden. Für Beschreibungen zu 
Szenario A wurden beispielsweise die nachfolgenden Methodennamen generiert: 


Szenario A - Spülmaschine starten: 
1. startDishwasher 
2. startDishwasherHello 
3. startDishwasherHelloFirst 
4. turnOnDishwasher 


5. useDishwasher 


nN 


. pushTheBlueButton 


Die Methodennamen eins bis fünf beschreiben offensichtlich die Funktionalität der neuen Methode; 
der sechste Name ist hingegen völlig unpassend und beschreibt stattdessen einen Teilschritt (bzw. 
eine Anweisung) des Methodenrumpfs. Darüber hinaus enthalten die Beispiele zwei und drei 
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überflüssige Wörter (Hello und HelloFirst)%| Diese beiden Namen werden daher ebenfalls als 
unpassend angesehen. Unter Anwendung dieser Kriterien werden insgesamt 34 der 39 synthetisierten 
Methodennamen zu Szenario A als passend bewertet, fünf hingegen als unpassend. Dieselbe 
Betrachtung wird für Beispiele zu Szenario B angestellt: 


Szenario B - Müsli zubereiten: 


— 


. prepareCerealFirstThing 
2. prepareSomeCereal 

3. prepareABowlOfCereal 
4. makeCereal 

5. makeCereals 

6. makeSomeCereals 

7. makeBowlOfCereal 

8. prepareCereals 


Alle acht der hier gezeigten synthetisierten Methoden beschreiben die neue Funktionalität. Nur 
das erste Beispiel enthält offensichtlich falsche Wörter und gilt daher als unpassend. Die Beispiele 
zwei, drei, sechs und sieben zeigen Namen, die weitere Wörter enthalten, die nicht unbedingt zur 
Beschreibung der Funktionalität benötigt werden (Some und BowlOf). Allerdings sind diese auch 
nicht falsch und bilden gemeinsam mit den übrigen Wörtern sinnhafte Methodennamen; daher 
werden diese Namen als passend angesehen. Insgesamt sind lediglich zwei der 34 synthetisierten 
Methodennamen zu Beschreibungen zu Szenario B unpassend. Für beide Szenarien werden insgesamt 
66 der 73 Methodennamen als passend bewertet, sieben sind hingegen unpassend. Damit ergibt sich 
eine Genauigkeit von 0,904 für die Synthese der Methodennamen in dieser Evaluation. 


Für alle erzeugten Methoden wurde anschließend geprüft, ob diese in der Folge auch (durch eine 
natürlichsprachliche Handlungsanweisung) aufgerufen werden können. Hierzu wurde jede der 73 
Beschreibungen, anhand derer Pro, eine neue Funktion erzeugen konnte, einzeln betrachtet?) 
Zunächst wird die neue Funktion wie zuvor beschrieben automatisch durch Pro, erzeugt und der 


Methodenname als neues Individuum der Klasse Mehod in der Zielsystemontologie hinterlegt] 


?° Die Fehlerquellen sind zum einen die Erkennung der Instruktionen, die in diesen Fällen nicht korrekt aufteilt 


(siehe[Abschnitt 6.2). Zum anderen hat der Klassifikator zur Bestimmung der semantischen Funktion von Phrasen 
in Lehrsequenzen die Wörter fälschlicherweise dem deklarativen Teil der Beschreibung zugeordnet (siehe [Ab- 
schnitt 7.74). Zuletzt könnten verbesserte Filtermechanismen bei der Synthese des Namens angewendet werden, um 
derartige Fälle auszuschließen (siehe [Abschnitt 7.8.1). 
Die Aufrufbarkeit wird je Beschreibung bestimmt, da so die realistische Verwendung des Systems am besten 
abgebildet wird. Ein Nutzer wird dieselbe neue Funktion nur einmal definieren und nicht mehrfach hintereinander 
mithilfe unterschiedlicher Formulierungen. Würden alle neuen Methodendefinitionen gleichzeitig dem System 
hinzugefügt werden, würden eine Vielzahl gleicher (oder sehr ähnlicher) Methodendefinitionen und -namen entstehen. 
Die Aufrufbarkeit einer einzelnen dieser Funktionen wäre auf diese Weise kaum bestimmbar. 
Das bedeutet, die Klasse Mehod der Ontologie enthält anschließend neben den Individuen, welche die Anwen- 
dungschnittstellenfunktionen repräsentieren, genau ein weiteres Individuum, welches die neu definierte Funktion 
repräsentiert. 
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Tabelle 9.4: Natürlichsprachliche Handlungsanweisungen, die zum Test der Aufrufbarkeit neuer Methodendefinitionen 
verwendet wurden. 


Szenario A Szenario B 


start the dishwasher please prepare some cereal for me please 
please turn on the dishwasher make some cereal please 

please start the dishwasher make a bowl of cereal 

switch on the dishwasher please I want a bowl of cereal 


turn on the dishwasher now please prepare me some cereal 


Tabelle 9.5: Erzielte Genauigkeiten bei der Erzeugung von Aufrufen neu definierter Methoden: Die Tabelle zeigt 
die Genauigkeiten je Szenario und insgesamt; unterschieden wird zudem zwischen allen (zuvor neu generierten) 
Methodennamen und wohlgeformten. 


alle wohlgeformte 


Szenario A 0,856 0,912 
Szenario B 0,759 0,788 
Gesamt 0,811 0,852 


Um die Aufrufbarkeit prüfen zu können, wurden je Szenario fünf beispielhafte (textuelle) Äußerungen 
erstellt; diese sind in aufgeführt. Anschließend kann bestimmt werden, ob Proy; 
für die Außerungen den korrekten (einzelnen) Methodenaufruf der neuen Funktion generiert. Auf 
diese Weise wird die Genauigkeit (siehe|Abschnitt 2.4.4) der Abbildung einer Handlungsanweisung 
auf die neue Funktion ermittelt. Dieses Prozedere wurde für alle 73 generierten Methoden mit 


denselben fünf (jeweils zum Szenario passenden) Äußerungen wiederholt. Dementsprechend wurden 


in Summe 365 Tests durchgeführt. Die Ergebnisse sind in Tabelle 9.5 aufgeführt; unterschieden 


werden die Genauigkeiten bei Betrachtung aller generierten und wohlgeformter Methodennamen. 


Für Szenario A wurden für 85,6% der Äußerungen korrekte Methodenaufrufe der neuen Funktionen 
erstellt; betrachtet man nur die wohlgeformten Methodennamen, wird eine Genauigkeit von 91,2% 
erzielt. Der Aufruf der neuen Funktionen zu Szenario A funktioniert somit weitestgehend zuverlässig. 
In vielen Fällen konnten sogar Aufrufe von Methoden mit nicht wohlgeformten Methodennamen 
generiert werden. Unter den wohlgeformten gelang die Generierung nur für die Methodennamen 
useDishwasher und turnOnDishwasher nicht in allen Fällen. Für Szenario B konnten nur in 
etwas mehr als dreiviertel der Fälle ein korrekter Aufruf generiert werden (75,8%); auch bei 
ausschließlicher Betrachtung der wohlgeformten Methodennamen ergibt sich ein ähnliches Bild 
(78,8%). Damit sind die Ergebnisse deutlich schlechter als für Szenario A. Ein wesentlicher Faktor 
ist, dass der Methodenname prepareSomeCereals bei Äußerungen, welche die Phrase make 
cereal enthalten, nicht gefunden wird; stattdessen erhält der Aufruf make (CerealBox) eine höhere 
Abbildungsbewertung (siehe Abschnitt 7.8.1). Insgesamt sind die Ergebnisse des Aufruftests jedoch 
positiv zu bewerten: In 81,1% der Fälle wurde der korrekte Methodenaufrufe zu einer Äußerungen 


bestimmt; für wohlgeformte Methodennamen beträgt die Genauigkeit sogar 85,2%. 
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Tabelle 9.6: Ergebnisse der Evaluation für die Synthese einzelner API- bzw. Umgebungs-Elemente (das heißt Methoden 
und Parameter). 
Präzision Ausbeute Fi 
Szenario A 0,823 0,854 0,839 
Szenario B 0,920 0,876 0,898 
Gesamt 0,886 0,869 0,877 


Tabelle 9.7: Ergebnisse der Evaluation der Erzeugung vollständiger API-Aufrufe durch Kombination der Einzelbestandteile. 


Präzision Ausbeute Fi 
Szenario A 0,589 0,649 0,617 
Szenario B 0,711 0,679 0,695 
Gesamt 0,668 0,670 0,669 


Zuletzt wird die Qualität der synthetisierten Methodenrümpfe (bzw. Skripte) bestimmt. Diese 
bestehen aus einzelnen Anweisungen (bzw. API-Aufrufen an das Zielsystem); dementsprechend 
wird die Korrektheit der erzeugten API-Aufrufe bemessen. Das Zielsystem, an das die Aufrufe 
gerichtet werden, ist ein Haushaltsroboter; es werden nur solche Aufrufe synthetisiert, die der 
API des Zielsystems entsprechen. Parameter können Objekt der Küchenumgebung sein. Evaluiert 
werden zwei unterschiedliche Aspekte. Einerseits wird bestimmt, wie gut die einzelnen Bestandteile 
eines Aufrufs, das heißt die aufzurufende Methode und die (potenziellen) aktuellen Parameter 
einzeln, synthetisiert werden können; diese Bestimmung der Aufrufbestandteile entspricht der 
Abbildung einzelner Phrasen der natürlichsprachlichen Beschreibungen auf Zielsystem-Elemente 
oder Umgebungsobjekte (siehe [Abschnitt 7.8.1). Andererseits wird betrachtet, wie gut daraus 
vollständige API-Aufrufe erzeugt werden können; hierzu werden die zuvor bestimmten einzelnen 


Bestandteile geeignet kombiniert. Tabelle 9.6| zeigt zunächst die Ergebnisse für die Betrachtung der 


Einzelbestandteile. Für beide Szenarien werden hohe Werte für die Präzision und die Ausbeute 
erzielt, wobei die Werte für Beschreibungen zu Szenario B etwas höher sind. Nimmt man die 
Ergebnisse für beide Szenarien zusammen, wird für das F,-Maß ein Wert von 0,877 erreicht; die 
Präzision ist dabei mit einem Wert von 0,886 geringfügig besser als die Ausbeute mit 0,869. Damit 
sind die hier erzielten Ergebnisse sogar deutlich besser als die in der intrinsischen Evaluation des 
Agenten zur Synthese von Methodendefinitionen und Skripten diskutierten (siehe Abschnitt 7.8.2). 


Dieser Trend zeigt sich auch bei Betrachtung der zusammengesetzten (vollständigen) API-Aufrufe; 


Tabelle 9.7|zeigt die zugehörigen Werte: Die Ergebnisse fallen zwar zwangsweise schlechter aus 


als bei Betrachtung der einzelnen Elemente, da ein Aufruf als falsch gewertet wird, sobald ein 
Bestandteil (z. B. einer der Parameter) inkorrekt ist (siehe|Abschnitt 7.8.2). Davon abgesehen können 
aber dieselben Tendenzen beobachtet werden. Die Generierung von Aufrufen zu Beschreibungen zu 
Szenario B gelingt besser; insbesondere für die Präzision werden deutlich höhere Werte erreicht 
(0,589 zu 0,711). Insgesamt wird bei Betrachtung aller Aufrufe für das Fı-Maß ein Wert von 0,669 
erzielt, wobei Präzision und Ausbeute nahezu gleichauf sind (0,670 zu 0,668). Auch diese Werte 
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liegen über denen der intrinsischen Evaluation des Agenten (auch wenn der Unterschied geringer 
ausfällt). Dieser Ausgang ist insofern überraschend, als die Randbedingungen in der hier diskutierten 
Evaluation schwieriger sind. Zum einen wurde ein zuvor ungesehener Datensatz verwendet, der aus 
Beschreibungen zu zwei neuartigen Szenarien besteht. Zum anderen wurden die Ausgaben durch das 
Gesamtsystem Prof, erzeugt, statt basierend auf perfekten Mustereingaben für den Agenten zur 
Synthese von Methodendefinitionen; dementsprechend kann es vorkommen, dass andere Agenten 
oder Fließbandstufen fehlerbehaftete Analysegrundlagen liefern. Unter diesen Randbedingungen 
wäre eigentlich zu erwarten gewesen, dass die Ergebnisse in der hier vorgestellten Evaluation 
(zumindest etwas) schlechter ausfallen. Das gegenteilige Resultat ist äußerst positiv zu bewerten. 
Eine mögliche Erklärung sind die zwei neuen Szenarien; diese könnten so gewählt und beschrieben 
sein, dass die Probanden weniger Probleme damit hatten, gute Beschreibungen zu verfassen. Eine 
weitere Erklärung könnten die Auswahl der Probanden sein; möglicherweise waren diese motivierter, 
gute Beschreibungen zu erstellen. Eine Begründung, die (nahezu) ausgeschlossen werden kann, ist 
das Sprachvermögen: mit knapp 50% liegt der Anteil der Muttersprachler sogar 10 Prozentpunkte 
unter dem der zur intrinsischen Evaluation des Agenten verwendeten Online-Datensammlung 


(siehe Abschnitt 5.5.3.2). Auch wenn sich die verbesserten Ergebnisse möglicherweise nur auf den 


Versuchsaufbau zurückführen lassen, konnte zumindest gezeigt werden, dass sich die Qualität der 
erzeugten API-Aufrufe durch die Einbettung in das Gesamtsystem (trotz potenzieller Fehler anderer 
Sprachanalysen) nicht verschlechtert. 


Zusammenfassend konnte die Evaluation zeigen, dass Prog% in der Lage ist, neue Funktionalität 
anhand von natürlichsprachlichen Beschreibungen zu erlernen; weiterhin konnte gezeigt werden, dass 
Methodendefinitionen auch durch das Gesamtsystem zuverlässig synthetisiert werden können. Die 
Erkennung, bei welchen Beschreibungen es sich um den Versuch des Lehrens neuer Funktionalität 
handelt, funktioniert in einem Großteil der Fälle (85% Genauigkeit). Auch die Synthese der 
Namen für die Signaturen neu erlernter Methoden erzielt eine sehr gute Genauigkeit von über 
90%. Die Erzeugung von API-Aufrufen zur Bildung von Methodenrümpfen funktioniert ebenfalls 
prinzipiell; mit einem für das Fı-Maß erzielten Wert von 0,669 besteht hier jedoch das größte 
Verbesserungspotenzial. 


9.5 Zusammenfassung und Bewertung 


Zur Evaluation des Gesamtsystems wurden drei verschiedene Einzelevaluationen durchgeführt. In 
der ersten wurden im Zuge einer Online-Studie 237 Pseudo-Quelltext-Generate von 120 Probanden 
bewertet. Die Auswertung der Antworten hat gezeigt, dass die Mehrheit der Probanden ungefähr die 
Hälfte aller Generate als vollständig fehlerfrei einschätzen. Die am häufigsten genannte Fehlerart 
sind nicht wohlgeformte Anweisungen. Die zweite Evaluation lieferte detaillierte Einsichten 
in die Korrektheit von Quelltext-Generaten: analysiert wurde die Synthese von API-Aufrufen 
und Kontrollstrukturen auf Anweisungsebene in einer konkreten Anwendungsdomäne. Diese 
Evaluationen wurde in zwei Varianten durchgeführt. In der ersten wurden — wie bei anderen 
Evaluationen — händische Transkriptionen als Eingabe verwendet. Bei der zweiten Variante dienen 
hingegen die Audioaufzeichnungen der stationären Datensammlung als Datengrundlage; diese 
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Variante kommt somit dem angestrebten Einsatzzweck von Prof% am nächsten: gesprochene 
Äußerungen werden aufgezeichnet, automatisch transkribiert, interpretiert und schließlich Quelltext 
generiert. Der Vergleich mit Musterlösungen hat gezeigt, dass die Synthese von API-Aufrufen an 
ein Zielsystem zumeist gelingt; bei der Untersuchung wurde für das Fı-Maß ein Wert von 0,746 für 
händische Transkriptionen und 0,687 für Audioaufzeichnungen bestimmt. Kontrollstrukturen werden 
mit einer Genauigkeit von über 71,3% (51,3%) erzeugt. Im Zuge der zweiten Evaluation wurde zudem 
die Gesamtlaufzeit des Systems gemessen, die benötigt wird, um aus einer natürlichsprachlichen 
Äußerung (händische Transkription bzw. Audioaufzeichnung) Quelltext zu generieren: Der Großteil 
der Quelltexte aus händischen Transkriptionen wird in unter 6 Sekunden erzeugt. Die Verarbeitung 
von Audioaufzeichnung verlängert die Gesamtlaufzeit von Pro,’ erheblich, da gesprochene 
Äußerungen zunächst durch ein System zur automatischen Spracherkennung in Textform überführt 
werden müssen; die Laufzeit für Audioaufzeichnung beträgt im Mittel 11,2 Sekunden. Mithilfe der 
dritten Evaluation wurde die Fähigkeit untersucht, neue Funktionalität anhand natürlichsprachlicher 
Beschreibungen zu erlernen. Die Auswertung hat gezeigt, dass die Erkennung, ob eine Äußerung 
eine Methodendefinition enthält, zu 85% genau ist. In mehr als 90% der Fälle wird zudem ein 
passender Methodenname synthetisiert. Lediglich die Synthese von API-Aufrufen zur Bildung der 
Methodenrümpfe gelingt weniger gut als bei der zweiten Evaluation; für das Fı-Maß wird ein Wert 
von 0,669 erreicht. 


Durch die Evaluationen konnten Fehlerquellen aufgedeckt werden, die vermehrt (und in allen Unter- 
suchungen) auftreten. Unter anderem hat sich gezeigt, dass eine inkorrekte Instruktionserkennung 


eine wesentliche Ursache für Folgefehler darstellt (siehe Abschnitt 6.2). Werden Äußerungen nicht 


richtig in Einzelinstruktionen unterteilt, können nicht alle Handlungsanweisung korrekt erfasst 
werden. In der Folge werden häufig entweder zu viele oder zu wenige Anweisungen für das Quelltext- 
Generat synthetisiert oder es können nicht alle Parameter eines Aufrufs ermittelt werden. Eine 
weitere Ursache für fehlende oder falsche Parameter sind falsch aufgelöste Korreferenzen (siehe 
[Abschnitt 7.5). Ein weiteres Problem stellen ungewöhnliche (bzw. unerwartete) Formulierungen 
in den natürlichsprachlichen Äußerungen dar; sie führen dazu, dass Kontrollstrukturen vereinzelt 
eine falsche Struktur aufweisen oder dass Handlungsanweisungen nicht auf Zielsystemfunktionen 
abgebildet werden können. Bei der Verarbeitung von Audioaufzeichnungen führen vor allem Wort- 
fehler, die bei der automatischen Spracherkennung entstehen, zu Problemen, insbesondere bei der 
Erzeugung von Kontrollstrukturen. Die von Prof, verwendeten Web-APIs zur Spracherkennung 
werden von den Anbietern kontinuierlich weiterentwickelt, sodass sich zukünftig die Qualität der 
Generate, die anhand von Audioaufzeichnungen erzeugt werden, noch stärker der Qualität, die 
Proy% für händische Transkriptionen erzielt, annähern wird. 


Betrachtet man die Ergebnisse der Evaluation zusammengenommen, bildet sich das folgende 
Gesamtbild. Die Evaluationen konnten zeigen, dass Endnutzer-Programmierung mit gesprochener 
Sprache mit Prof, grundsätzlich möglich ist. Zwar sind nur ungefähr ein Drittel bzw. die Hälfte 
(je nach Evaluation) aller Quelltext-Generate vollständig korrekt; dieses Ergebnis ist jedoch positiv 
zu bewerten, schließlich enthalten die Beschreibungen des verwendeten Datensatzes bis zu 24 
Handlungsanweisungen, zu denen jeweils ein API-Aufruf synthetisiert werden muss. Verwandte 
Arbeiten aus dem Bereich der Programmierung mit (geschriebener) natürlicher Sprache ermöglichen 


meist nur die Erzeugung deutlich kürzerer Skripte (siehe ‚Kapitel 3). Ansätze, die gesprochene 
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Sprache verarbeiten können, sind nur in der Lage, einzelne oder die Kombination von zwei 

Anweisungen zu generieren. Dass auch Pro/, vor allem kurze Skripte fehlerfrei generiert, ist 
77 

plausibel, schließlich birgt jede zusätzlich zu synthetisierende Anweisung Fehlerpotenzial. Die guten 

Ergebnisse bei Betrachtung der einzelnen (in den Skripten enthaltenen) Anweisungen legen aber 

nahe, dass auch in längeren Skripten meist nur einzelne Anweisungen fehlen oder fehlerhaft sind. 
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„We can only see a short distance ahead, 
but we can see plenty there that needs to be done.“ 


— Alan Turing 


In dieser Arbeit wurde das System Proy,, zur Endnutzer-Programmierung mit gesprochener 
Sprache entworfen und umgesetzt. Das Motiv fiir die Entwicklung eines solchen Systems liegt in der 
wachsenden Menge an Nutzern von Computersystemen, die befähigt werden sollen, diese nicht nur 
zu nutzen, sondern auch zu programmieren. Die Notwendigkeit, vorab eine Programmiersprache 
erlernen zu müssen, stellt für Laien eine wesentliche Hürde dar. Daher ermöglicht Pro? 
stattdessen die Verwendung alltäglicher Sprache zur Beschreibung von Handlungsanweisungen. 
Die Beschreibungen werden von Proy,, als Programm für ein Zielsystem interpretiert, das 
eine Anwendungsschnittstelle zur Endnutzer-Programmierung anbietet. Um natürlichsprachliche 
Handlungsbeschreibungen als Programm interpretieren zu können, wird die Semantik der Eingaben 
analysiert und ein tiefes Verständnis der Sprache erzeugt. Dadurch ist Pro,’ in der Lage, aus 
gesprochenen Äußerungen Quelltext für unterschiedliche Zielsysteme zu erzeugen und kann zudem 
mit geringem Aufwand an neue Anwendungsschnittstellen angepasst werden. 


Die Grundlage für das System Pro, bildet die Architektur PARSE. Diese wurde so entworfen, 
dass sie als Rahmenarchitektur für beliebige Systeme dienen kann, die zur Lösung einer Problem- 
stellung natürliche Sprache verstehen müssen. Als Kernkomponente sieht PARSE die Verwendung 
unabhängiger Agenten vor, die je einen bestimmten Aspekt der natürlichen Sprache analysieren. 
Dadurch kann die abstrakte Aufgabe der Erzeugung von Sprachverständnis in handhabbare Teil- 
probleme unterglieder werden. Die Kapselung in unabhängige Agenten ermöglicht es zudem, je 
Problemstellung (bzw. Teilaspekt zum Verständnis der Sprache) eine andere Technik zu verwenden. 
Außerdem können die einzelnen Agenten unabhängig voneinander evaluiert werden. 


Die Rahmenarchitektur sorgt dafür, dass die Agenten nebenläufig und wiederholt ausgeführt werden. 
Dadurch können die Agenten von Analyseergebnissen anderer Agenten profitieren und zyklische 
Abhängigkeiten können aufgelöst werden. Zur Wahrung der gegenseitigen Unabhängigkeit ist es 
den Agenten nicht möglich, direkt miteinander zu kommunizieren. Stattdessen kommunizieren 
sie indirekt über eine geteilte Graph-basierte Datenstruktur. Der Graph enthält einerseits das 
zu analysierende natürlichsprachliche Artefakt, andererseits hinterlegen die Agenten auch ihre 
Analyseergebnisse, indem sie den Graph modifizieren (vor allem durch Hinzufügen von Knoten und 
Kanten). Dadurch können Agenten die Ergebnisse anderer Agenten in ihre Analysen einbeziehen. 
Im Zusammenspiel erzeugen die Agenten eine semantische Interpretation des natürlichsprachlichen 
Artefakts. Neben den Agenten sieht PARSE die Verwendung von Fließbändern zur Vor- und 
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Nachverarbeitung vor. Architektur-seitig sollte die Vorverarbeitung dazu verwendet werden, das zu 
analysierende natürlichsprachliche Artefakt (Textdokument, Audiosignal etc.) soweit vorzubereiten, 
dass die Agenten eine Analysegrundlage erhalten. Die Nachverarbeitung dient wiederum der 
Erzeugung einer Ausgabe; welche Art von Ausgabe generiert wird, hängt von der Problemstellung 
ab, die ein auf PARSE basierendes System lösen soll. Das in dieser Arbeit entwickelte System 
Proj% soll beispielsweise Quelltext anhand von gesprochenen Äußerungen synthetisieren. 


Zur Umsetzung von Prof, wurden konkrete Agenten und Fließbandstufen für die Rahmenar- 
chitektur PARSE entwickelt. Außerdem werden mithilfe der Rahmenarchitektur Informationen 
über die Anwendungsdomäne in Form von Ontologien bereitgestellt. Für die Programmierung 
gegen Anwendungsschnittstellen sind relevante Informationen unter anderem die von Zielsystemen 
bereitgestellten Schnittstellenfunktionen und Objekte der Systemumgebung. In Proy,, werden 
zur Vorverarbeitung gesprochener Äußerungen Fließbandstufen verwendet, die das Audiosignal 
zunächst in eine Tokensequenz umwandeln. Anschließend erfolgt eine grundlegende syntaktische 
Analyse, bevor ein initialer Graph als Analysegrundlage für die Agenten erzeugt wird. 


Die fiir Pro’, entwickelten Agenten sind dafür zuständig, eine Äußerung als Programm zu interpre- 
tieren. Hierzu wurden insgesamt sechzehn unterschiedliche Agenten entworfen und implementiert. 
Diese lassen sich grob in drei Kategorien unterteilen: Agenten der ersten Kategorie übernehmen allge- 
meingültige Semantik-Analyse-Aufgaben, wie beispielsweise Korreferenzanalyse oder Modellierung 
und Etikettierung von Diskurs-Themen. Weitere Agenten sind für die Erkennung programmatischer 
Strukturen zuständig; beispielsweise gibt es Agenten, die einzelne Anweisungen synthetisieren 
oder Methodendefinitionen generieren. Zuletzt gibt es Agenten, welche zur Funktionalität des 
Systems beitragen, wie beispielsweise der Dialog-Agent oder Funktionswächter-Agenten, die den 
Fortschritt der Verarbeitung sicherstellen. Die Architektur-seitig sichergestellte Unabhängigkeit der 
Agenten ermöglicht es, für die Lösung der jeweiligen Problemstellung unterschiedliche Verfahren 
zu verwenden. Die Agenten zur Synthese von Kontrollstrukturen nutzen beispielsweise händisch 
erstellte Spezial-Grammatiken. Neuronale Netze und übertragendes Lernen werden vom Agenten 
zur Erkennung und Analyse von Lehrsequenzen in natürlicher Sprache zur Klassifikation verwendet. 
Der Agent zur Modellierung und Etikettierung von Themen nutzt hingegen DBpedia-Konzepte 
und -Relationen als Ausgangspunkt für die Inferenz von Themen. Das tiefe Sprachverständnis 
wird durch Proy, dementsprechend mittels einer Kombination von regel- als auch statistik- und 
wissensbasierten Techniken verwirklicht. Die Agenten wurden jeweils intrinsisch evaluiert. Die 
Evaluationen erfolgten anhand von realistischen Eingabebeispielen, die parallel zur Entwicklung der 
Agenten fortwährend über Nutzerstudien gesammelt wurden. Auf diese Weise kann sichergestellt 
werden, dass jeder Agent einen Beitrag zur Analyse der Semantik leistet; ein kontinuierlicher 
Entwicklungsfortschritt wird somit garantiert. 


In der Nachverarbeitung wird aus dem gemeinschaftlich erzeugten Analyseergebnis der Agen- 
ten zunächst ein abstrakter Syntaxbaum generiert. Der Baum wird anschließend in Quelltext 
übersetzt und das Generat in eine Zielsystem-spezifische Quelltext-Schablone injiziert. Um ein 
neues Zielsystem anzubinden, muss Prof, neben der entsprechenden Schablone lediglich die 
Ontologie bereitgestellt werden, welche die Funktionen des Zielsystems (und gegebenenfalls die 
Systemumgebung) beschreibt. 
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Das Zusammenspiel der Komponenten und damit die Funktionalität des Gesamtsystems Prof, 
wurde abschließend anhand von drei Evaluationen untersucht. In allen Evaluationen wurden von 
Prof% für eine Reihe von natürlichsprachlichen Programmbeschreibungen Quelltext-Generate 
erzeugt, die anschließend bewertet wurden. 


Die erste Evaluation wurde in Form einer Online-Studie durchgeführt. Zunächst wurden mithilfe 
des Gesamtsystems zu knapp 240 Transkriptionen Pseudo-Quelltexte (unabhängig von einem 
Zielsystem) in Form von UML-Aktivitätsdiagrammen erzeugt. Die Diagramme wurden anschließend 
von 120 Probanden bewertet, wobei jedes Diagramm von fünf Probanden begutachtet wurde. 
Die Auswertung ergab, dass knapp 70% der Diagramme von der Mehrheit der Probanden als 
korrekt eingeschätzt wurden. Als wesentliche Fehlerquelle konnten nicht wohlgeformte Aktivitäten 
(die Quelltext-Anweisungen entsprechen) ermittelt werden; diese enthielten entweder überflüssige 
Phrasen oder wurden nicht korrekt voneinander getrennt. 


Für die zweite Evaluation wurde dieselbe Menge an Transkriptionen verwendet. Zusätzlich wurden in 
einer zweiten Variante die zugehörigen Audioaufzeichnungen als Eingabe genutzt; diese werden im 
Vorverarbeitungsfließband von Prof% zunächst durch ein System zur automatischen Spracherken- 
nung transkribiert!| In beiden Varianten der zweiten Evaluation wurde Java-Quelltext zur Steuerung 
eines Haushaltsroboters generiert und mit einer vorab erstellten Musterlösung verglichen. Der 
Vergleich ergab, dass für die Erzeugung von Anweisungen und die Abbildung dieser auf Funktionen 
der Anwendungsschnittstelle für das Fı-Maß ein Wert von 0,746 für händische Transkriptionen und 
0,687 für die Audioaufzeichnungen erreicht wird. Außerdem wurden Kontrollstrukturen in gut 71% 
(bzw. 51% für bei Verwendung von Audioaufzeichnungen) der Fälle korrekt synthetisiert. 


In der letzten Evaluation wurden 100 natürlichsprachliche Beschreibungen betrachtet, die potenziell 
eine neue Systemfunktionalität lehren. Zunächst wurde untersucht, wie gut Prog% einfache (nicht 
lehrende) Handlungsbeschreibungen von Lehrsequenzen unterscheiden kann; dies gelingt für 85 der 
100 Beschreibungen. Anschließend wurden die Lehrsequenzen näher untersucht und ermittelt, dass 
Prof; in über 90% der Fälle in der Lage ist, einen sprechenden Methodennamen für die neue 
Funktionalität zu synthetisieren. Auch der Aufruf der neuen Funktionen anhand der generierten 
Methodennamen gelingt mittels natürlichsprachlicher Handlungsaufforderungen in gut 81% der Fälle. 
Die Abbildung von Anweisungen auf Zielsystemfunktionen zur Bildung von Methodenrümpfen 
erreichte für das F}-Maß einen Wert von 0,669. 


Auch wenn einzelne Bestandteile noch Verbesserungspotenzial aufweisen, konnte anhand der drei 
Evaluationen nachgewiesen werden, dass Pro/,, grundsätzlich in der Lage ist, Programme aus 
gesprochenen Äußerungen zu synthetisieren. Weitere Einsichten zur Statthaftigkeit des in dieser 
Arbeit verfolgten Ansatz zur Endnutzer-Programmierung mit gesprochener Sprache liefert die 
nachfolgende Diskussion der eingangs formulierten Thesen. 


! Für die Evaluation wurde die Google Speech API verwendet (siehe |Abschnitt 6.1). 
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10.1 Diskussion der Thesen 


Zu Beginn der Arbeit wurden in|Abschnitt 1.6 Thesen aufgestellt, anhand derer bewertet werden 
soll, inwieweit die Zielstellung, Laien zur Endnutzer-Programmierung mit gesprochen Sprache 


zu befähigen, mit dem in den vorangegangen Kapiteln beschriebenen Ansatz erfüllt wird. Im 
Folgenden werden die einzelnen Thesen diskutiert und jeweils Belege angeführt, die in der Arbeit 
gesammelt wurden. Die Teile der Arbeit, die vorrangig Belege liefern, sind einerseits die Evaluation 
des Gesamtsystems (siehe Kapitel 9), andererseits die intrinsischen Evaluationen der einzelnen 
Pro/,-Agenten (siehe Kapitel 7), aber auch die Beschreibung des grundsätzlichen Systemaufbaus 


ra 
al 


(siehe [Kapitel 5) bzw. der Architektur (siehe Kapitel 4). 


Tı: Aus gesprochenen Äußerungen kann Quelltext zur Programmierung von Zielsystemen 
mit einer Endnutzer-Anwendungsschnittstelle synthetisiert werden. 


Das System Pro, ist in der Lage, natürlichsprachliche, gesprochene Handlungsbeschreibung 
derart zu interpretieren, dass programmatische Anweisungen erzeugt werden können (siehe 
[Abschnitt 7.8). Der für diese Aufgabe zuständige Agent zur Synthese von Methodendefinitionen 
und Skripten (siehe Abschnitt 7.8) erzeugt eine Zwischenrepräsentation, die den strukturellen 


Aufbau von Anweisungen widerspiegelt. Anhand dieser Zwischenrepräsentation gelingt es einer- 
seits, größtenteils korrekte Pseudo-Quelltext-Anweisungen zu generieren (siehe Abschnitt 9.2), 
andererseits gelingt in den meisten Fällen auch, eine Abbildung auf Funktionen (inklusive 
aktueller Parameter) einer Anwendungsschnittstelle zu finden. Letzteres konnte durch die intrin- 
sische Evaluation des besagten Agenten (siehe Abschnitt 7.8.2) und der zweiten Evaluation des 
Gesamtsystems nachgewiesen werden (siehe|Abschnitt 9.3). Nichtsdestotrotz birgt insbesondere 
das Verfahren zur Abbildung auf Zielsystemfunktionen Verbesserungspotenzial. Weiterhin 
konnte innerhalb der Beschreibung des Nachverarbeitungsfließbandes (siehe Kapitel 8) gezeigt 
werden, dass Pro, Quelltext für verschiedene Anwendungsschnittstellen generieren kann; 


auch unterschiedliche Programmiersprachen werden unterstützt. 


Tı.ı: Anhand gesprochener Handlungsbeschreibungen können skriptartige Programme, 
die aus Aufrufen von Funktionen einer Anwendungsschnittstelle bestehen, erzeugt 
werden. 


Proy,, gelingt es, in den meisten Fällen zu entscheiden, wann aus einer Handlungsbe- 


schreibung ein Skript erzeugt werden soll (siehe|Abschnitte 7.7.3|und 9.4). Die erzeugten 


Skripte bestehen — im Gegensatz zu den von verwandten Arbeiten erzeugten — aus einer 
Vielzahl von Anweisungen (siehe Abschnitt 9.3). Die Abbildung der Anweisungen auf 
konkrete Zielsystemfunktionen wurde bereits im Zuge der Diskussion der These Tı 


thematisiert. 


Tı.2: Anhand lehrender Beschreibungen können Methodendefinitionen synthetisiert und 
dadurch der Funktionsumfang der Anwendungsschnittstelle eines Zielsystems erwei- 
tert werden. 


Proy,, ist in den meisten Fällen in der Lage, zu erkennen, wann ein Nutzer beabsichtigt, 


dem System eine neue Funktion zu lehren (siehe|Abschnitte 7.7.3lund 9.4). Aus erkannten 
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Lehrsequenzen gelingt es zudem, Methodendefinitionen zu generieren. Die Erzeugung 


von Methodendefinitionen gelingt zuverlässig (siehe siehe |Abschnitte 7.8.2) und 19.4): 


es werden größtenteils sprechende Methodennamen generiert. Diese sind wiederum 
eine Voraussetzung dafür, dass neu definierte Funktionen in gesprochenen Äußerungen 
erkannt und aufgerufen werden können. Es konnte gezeigt werden, dass der Aufruf der 
neu definierte Funktionen anhand von gesprochenen Handlungsanweisungen zuverlässig 
gelingt. Die Synthese von Methodenrümpfen entspricht im Wesentlichen der von Skripten 
(siehe Tı 1). 


3: Es Können automatisch Strukturen in natürlicher Sprache erkannt werden, welche 


die Verwendung von Kontrollstrukturen in einem Programm erfordern: Schleifen, 
bedingte Verzweigungen und nebenläufige Abschnitte können in die erzeugten 
Quelltexte integriert werden. 


Dem System gelingt es in vielen Fällen, Kontrollstrukturen innerhalb gesprochener Äuße- 
rungen zu erkennen und in die synthetisierten Programme zu integrieren. Dabei machen 
die verfolgten Ansätze keine Annahmen über das Vorhandensein oder die Position der 
Kontrollstrukturen. Zudem können Formulierungen zur Beschreibung von Kontrollstruk- 
turen vielfältig gestaltet werden: Unterschiedliche sprachliche Konstruktionen, welche die 
Verwendung verschiedener Kontrollstrukturen erfordern, werden zuverlässig erkannt. Dies 
konnten sowohl die intrinsischen Evaluationen der Agenten zur Synthese von Kontroll- 
strukturen (siehe|Abschnitt 7.6) als auch die zweite Evaluation des Gesamtsystems belegen 
(siehe|Abschnitt 9.3). Eine Einschränkung des derzeitigen Ansatzes ist, dass Bedingungen 
auf Schnittstellenfunktionen des Zielsystems (oder auf Laufvariablen bei Zählschleifen) 


abbildbar sein müssen. Außerdem hat sich gezeigt, dass eine der wesentlichen Herausforde- 
rungen bei der Erkennung von Kontrollstrukturen in natürlicher Sprache die Bestimmung 
des Bezugsrahmens (das heißt die Zuweisung von Anweisen zu Blöcken) darstellt. 


: Die Interpretation einer gesprochenen Äußerung als Programm kann größtenteils un- 


abhängig vom konkreten Zielsystem durchgeführt werden. Dadurch ist der Aufwand 
zur Adaption an ein neues Zielsystem gering. 


Der beschriebene Systemaufbau von Pro, zeigt, dass die Vorverarbeitung, sowie die 
vollständige semantische Analyse einer Äußerung und die Interpretation als Programm 
durch die Agenten vollständig unabhängig von einem konkreten Zielsystem durchgeführt 
werden können. Die Sprachanalysen machen weder Annahmen hinsichtlich der Funktiona- 
lität des Zielsystems noch zu anderen Domänencharakteristiken. Dadurch ist Prof, in der 
Lage, ohne Angabe eines konkreten Zielsystems, bereits Pseudo-Quelltext zu generieren 
(siehe [Abschnitt 9.2). Zudem konnte gezeigt werden, dass die Anbindung eines (neuen) 
Zielsystems mit geringem Aufwand bewerkstelligt werden kann: Für jedes Zielsystem 


(und jede Systemumgebung) muss lediglich eine Ontologie bereitgestellt werden, die als 
Schnittstelle zu Domäneninformationen dient. Wie bereits von Landhäußer et al. gezeigt, 
können Zielsystemontologien (teil-)automatisch generiert werden [LWT17b]. Zusätzlich 
muss den entsprechenden Stufen des Nachverarbeitungsfließbandes ein Besucher je Pro- 


grammiersprache und eine Quelltext-Schablone pro Zielsystem zur Verfügung gestellt 
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werden. Das übrige System kann unverändert weiterverwendet werden. Zuletzt konnte 
gezeigt werden, dass Pro, in der Lage ist, bei Bereitstellung mehrerer Zielsystem- und 
Umgebungsontologien zur Laufzeit diejenigen zu bestimmen, welche im aktuellen Kontext 
passend sind; das bedeutet, unter einer Auswahl von Zielsystemen, kann Proy_, anhand 
der natürlichsprachlichen Äußerung entscheiden, welches Zielsystem angesprochen werden 
sollte (siehe|Abschnitt 7.9). 


Die Verwendung unabhängiger Agenten für einzelne Sprachanalyseaufgaben, die neben- 
läufig und wiederholt ausgeführt werden, erzeugt bei geeigneter Auswahl der Agenten ein 
tiefes Verständnis gesprochener Sprache. 


Wie soeben diskutiert, ist das von Prof, erzeugte Verständnis natürlicher Sprache ausreichend 
tief, um die Programmierung unterschiedlicher Zielsysteme anhand gesprochener Äußerun- 
gen zu ermöglichen. Davon abgesehen, ist nur schwer abzuschätzen, wie umfangreich das 


Sprachverständnis tatsächlich ist, das die in|Kapitel 7|beschriebenen Analysen der Agenten 


im Zusammenspiel erzeugen. Die von der Architektur vorgesehene Untergliederung in un- 
abhängige Agenten ermöglicht es allerdings, zu bemessen, wie gut einzelne (semantische) 
Aspekte der Sprache „verstanden“ werden. Außerdem können dem System jederzeit Agenten 
hinzugefügt werden, um das allgemeine Sprachverständnis zu vertiefen. Die Möglichkeit durch 
die nebenläufige Ausführung der Agenten zyklische Abhängigkeiten aufzulösen und dadurch 
das Sprachverständnis zu vertiefen, Konnte vereinzelt gewinnbringend angewandt werden, bei- 
spielsweise im Zusammenspiel der Agenten zur Korreferenzanalyse, zur Modellierung des 


sprachlichen Kontexts und zur Synthese von Kontrollstrukturen (siehe|Abschnitte 7.5][7.4|und 


7.6). Aufschluss über die allgemeinen Sprachverständnisfähigkeiten von Pro, könnte eine 
(teilweise) Übertragung des Ansatzes in Anwendungsdomänen abseits der Programmierung 


liefern, wie im anschließenden Kapitel diskutiert. 


Durch gezielte Dialogführung können Unklarheiten bei der Interpretation einer gespro- 
chenen Äußerungen beseitigt werden. 


Das Potenzial gezielter Dialogführung bei der Interpretation von gesprochenen Äußerungen 
wurde in der Arbeit exemplarisch gezeigt. Betrachtet wurden Möglichkeiten zur Korrektur von 
Spracherkennungsfehlern, fehlerhaften Korreferenzen und unvollständigen bedingten Verzwei- 
gungen. Für alle drei Fehlerarten konnte gezeigt werden, dass Unklarheiten (und damit potenzielle 


Fehlerquellen) im Dialog mit dem Nutzer ausgeräumt werden können (siehe |Abschnitt 7.10.3). 


Die wesentliche Herausforderung bei der Dialogführung besteht darin, Konzepte, die Laien 
im Allgemeinen unbekannt sind (wie bedingte Verzweigungen oder Korreferenzen) derart zu 
erfragen, dass Laien die Fragestellung verstehen können. Mit dem Konzept eines Dialog-Agenten, 
der sogenannte Gesprächssitationen verwendet, um Dialogstrategien für bestimme Fehlerarten 
darzustellen, konnte zudem eine Möglichkeit demonstriert werden, wie Dialog-Management 


offen und erweiterbar gestaltet werden kann. 


10.2 Weiterführende Themen und Ausblick 


10.2 Weiterführende Themen und Ausblick 


Die abschließende Diskussion der Eignung des Systems Pro, zur Endnutzer-Programmierung 
mit gesprochener Sprache anhand der aufgestellten Thesen zieht konsequenterweise die Betrachtung 
weiterführenden Forschungsfragen nach sich. Diesbezüglich werden im Folgenden zunächst Möglich- 
keiten zur Optimierung des Systems Prof, bzw. der Architektur PARSE erörtert. Anschließend 
wird ein Ausblick auf weiterführende Fragestellungen zur Weiterentwicklung des Ansatzes gegeben. 
Zuletzt werden alternative Einsatzmöglichkeiten abseits der Programmierung diskutiert. 


10.2.1 Optimierungen und Erweiterungen 


Damit Proyj,, die Quelltext-Synthese aus gesprochenen Äußerungen zukünftig noch besser 
gelingt, Könnten einzelne Agenten optimiert oder ausgetauscht werden. Zunächst könnten die 
vorgestellten Verfahren verbessert bzw. erweitert werden. Unter anderem könnten die zur Erkennung 
von Kontrollstrukturen eingesetzten Grammatiken erweitert werden, um weitere syntaktische 
Konstrukte, die auf eine Kontrollstruktur hinweisen, erkennen zu können. Außerdem wäre es 
möglich, die Ergebnisse anderer Agenten noch stärker in die Sprachanalysen einfließen zu lassen; 
beispielsweise könnte der Dialog-Agent Themen-Etiketten verwenden, um Rückfragen zu präzisieren. 
Ist zum Beispiel bekannt, dass eines der Diskurs-Themen kitchen ist, könnte bei einer unsicheren 


Worterkennung, wie in der beispielhaften Hypothese „goo,9 to1,0 theo,9 frencho, sp] direkt folgende 
Frage (anstelle einer generischen Frage, die Unverständnis ausdrückt) gestellt werden: „Do you 


mean fridge?“. 


Darüber hinaus könnten Agenten auch gänzlich ausgetauscht und neue Verfahren zur Lösung der 
jeweiligen Problemstellung entwickelt werden] Vor allem Verfahren, die überwachtes maschinelles 
Lernen verwenden, könnten für Problemstellungen, die sich als Klassifikationsaufgabe auffassen 
lassen, eine Qualitätssteigerung bringen. Hierzu zählen beispielsweise die Synthese von Kontroll- 
strukturen und die Erkennung von Instruktionen. Gerade letztere hat sich in den Evaluationen als 
wesentliche Fehlerquelle herausgestellt. Für beide Aufgaben stehen bisher keine annotierten Daten- 
sätze zur Verfügung, wie sie für überwachtes Lernen benötigt werden. Allerdings existieren durch 
die Problemdefinition bereits Annotationsschemata. Gemäß dieser müssten zunächst umfangreiche 
annotierte Korpora angelegt werden, bevor beispielsweise ein neuronales Netz auf diese Aufgabe 
trainiert werden kann. Um den Aufwand für die Annotation zu verringern, wäre eine Möglichkeit, 
die vorhandenen regelbasierten Ansätze zu verwenden, um eine Dokumentenmenge (beispielsweise 
das Switchboard-Korpus) mit Etiketten zu versehen und diese anschließend manuell zu überprüfen 


bzw. zu korrigieren. 


Die tiefgestellten Zahlen stellen (Wort-)Konfidenzen dar, die üblicherweise von Systemen zur automatischen 
Spracherkennung bei der Erzeugung einer Hypothese generiert werden (siehe| Abschnitte 2.3.7\und/6.1 

Sofern die Analyseergebnisse in gleicher Form dargestellt werden wie zuvor, können (durch die Architektur-seitig 
sichergestellte Unabhängigkeit) Agenten, die dieselbe Problemstellung mithilfe unterschiedlicher Ansätze lösen, 
beliebig ausgetauscht oder sogar gleichzeitig eingesetzt werden. 
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Auch die Entwicklung neuer Agenten, die weitere sprachliche oder programmatische Aspekte 
betrachten, könnten die Interpretation gesprochener Äußerungen verbessern. Hilfreich wäre bei- 
spielsweise eine Überprüfung, ob die beschriebenen Handlungsanweisungen ein sinnhaftes Skript 
für ein Zielsystem erzeugen, oder ob Anweisungen zur Erfüllung der Aufgabe fehlen. Falls eine 
solche Lücke entdeckt würde, könnte ein weiterer Agent mögliche fehlende Funktionsaufrufe 


automatisch inferieren. Ein derartiger Agent wurde bereits für Pro, entwickelt [Ham18]; dieser 


stützt seine Inferenz auf Konzepte, Fakten und Axiome der Weltwissenontologie ResearchCyc, 
funktioniert jedoch nur sehr eingeschränkt. Das in ResearchCyc enthaltene Wissen über Abläufe 
und Vor- und Nachbedingungen ist schlicht nicht umfangreich genug. In einem alternativen Ansatz 
könnten zukünftig stattdessen Vor- und Nachbedingung von Schnittstellenfunktionen des Zielsystems 
verwendet werden, sofern die Anwendungsschnittstelle solche anbietet. 


Neben Verbesserungen der Bestandteile des Systems Pro, könnten auch einzelne Aspekte 
der Architektur PARSE optimiert werden. Ein offensichtlicher Ansatzpunkt ist der nebenläufige 
Zugriff der Agenten auf den PARSE-Graphen als geteilte Datenstruktur. Derzeit erhalten die 
Agenten zu Beginn jedes Aufrufzyklus eine Kopie des Graphen und führen ihre Analysen auf dieser 
Kopie aus. Nur der Agent, der seine Analyse zuerst vollständig abschließt (und neue Informationen 
generiert), darf seine Ergebnisse im Haupt-Graphen hinterlegen. Zukünftig könnte ein echt paralleler 
Mechanismus für den Zugriff auf den Graphen entwickelt werden; dann könnten die Agenten 
direkt auf dem Haupt-Graph arbeiten und auch Ergebnisse direkt in diesem hinterlegen. Auf diese 
Weise könnte die Effizienz der Analyse der Semantik durch die Agenten deutlich gesteigert werden. 
Allerdings müssen (schreibende) Zugriffe auf den Graphen entsprechend geregelt werden, um 
Inkonsistenzen zu verhindern. Außerdem würden die Agenten auch während eines Analysezyklus 
über Änderungen am Graphen informiert werden und müssen demnach fortwährend entscheiden, ob 
die Analyse unter den neuen Voraussetzungen fortgesetzt oder neu begonnen werden sollte. Auch 
hierfür sollte die Architektur unterstützende Mechanismen anbieten. 


Eine weitere Unterstützung zur Entwicklung von Agenten, die Architektur-seitig ergänzt werden 
könnte, ist die Prüfung auf im Graphen enthaltene Informationen, die der jeweilige Agent für seine 
Analysen benötigt. Bisher obliegt die Prüfung den Agenten und wurde dementsprechend vielseitig 
umgesetzt. Es wäre aber möglich, vorzugeben, dass eine Prüfung erfolgen muss und in welcher Form 
diese erfolgen soll. Beispielsweise könnte jeder Agent Graphmuster angeben, die beschreiben, welche 
Informationen er benötigt (ähnlich der Verwendung von Mustern im Dialog-Agenten oder in der 
Nachverarbeitungsstufe zur Erzeugung des abstrakten Syntaxbaums). Dieser Mechanismus könnte 
auch mehrstufig realisiert werden; es könnte zwischen mindestens erforderlichen und optionalen 
Information unterschieden werden. 


10.2.2 Weiterführende Fragestellungen 


Sowohl der System-Entwurf als auch die Architektur bieten Raum für weiterführende Untersu- 
chungen. Zunächst sollte untersucht werden, ob bestimmte Sprachanalysen noch stärker von der 
nebenläufigen und wiederholten Ausführung der Agenten profitieren könnten. Die bisher für Prof, 
entwickelten Agenten nutzen die Möglichkeiten, die sich aus diese Mechanik bieten, nur vereinzelt. 
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Das liegt weniger daran, dass es nicht nötig wäre, bereits Teilergebnisse verwenden oder zyklische 
Abhängigkeiten auflösen zu können; vielmehr hat sich gezeigt, dass die Entwicklung der Agenten 
deutlich an Komplexität gewinnt, wenn kontinuierlich geprüft werden muss, ob neue Ergebnisse 
anderer Agenten vorliegen oder der Graph bereits Teilergebnisse der eigenen Problemstellung 
enthält. Um diesen Aufwand zu minimieren und eine einheitliche Lösung für diese Problematik 
anzubieten, könnte die Architektur zukünftig um unterstützende Mechanismen erweitert werden, 
wie beispielsweise der zuvor beschriebene Mechanismus zur Prüfung auf im Graphen enthaltene 
Informationen. Das Potenzial der nebenläufigen und wiederholten Ausführung der Agenten ist 
sicherlich größer als in dieser Arbeit gezeigt werden konnte. Möglicherweise können andere Systeme, 
die auf PARSE basieren (wie im nachfolgenden Paragraphen diskutiert), diesbezüglich zukünftig 


Hinweise liefern. 


Weiterhin sollte untersucht werden, ob die Konfidenzen, die viele Agenten samt alternativen 
Analyseergebnissen erzeugen, gewinnbringend genutzt werden können. Im aktuellen Zustand ver- 
wendet Prof, zumeist nur die Analyseergebnisse mit der höchsten Konfidenz (das heißt die 
Haupthypothese der Agenten). Gerade im Zusammenspiel der Agenten und voneinander abhängigen 
Sprachanalysen könnte eine Exploration der Alternativergebnisse mit niedrigerer Konfidenz aber 
hilfreich sein. Eine erste Untersuchung dieser Möglichkeit konnte bereits Hinweise darauf liefern, 
dass eine Exploration der Alternativen im Zusammenspiel der Agenten zur Disambiguierung von 
Wortbedeutungen, zur Modellierung und Etikettierung von Diskurs-Themen und zur automati- 
schen Auswahl von Zielsystem- und Umgebungsontologien die Güte der Ergebnisse der beiden 


letztgenannten Agenten steigern kann [Fuc20]. 


Auch die Möglichkeiten geschickter Dialogführung sollten eingehender untersucht werden. Bisher 
wurde nur gezeigt, dass bestimmte Arten von Unklarheiten im Dialog ausgeräumt werden können; 
es wäre interessant zu sehen, ob dieses Konzept auf alle potenziellen Fehlerquellen, die bei 
der Beschreibung eines Programms mit natürlicher Sprache auftreten können, erweitert werden 
kann. Darüber hinaus könnten auch weiterführende Konzepte der Dialogführung untersucht 
werden. Beispielsweise könnte die Dialogführung stärker System-initiativ (statt wie bisher Nutzer- 
initiativ) ausgelegt werden und evaluiert werden, ob sich die Akzeptanz der Nutzer dadurch 
verbessert. In diesem Zusammenhang sollte auch untersucht werden, ob häufigere Rückmeldungen 
des Systems einen positiven Effekt erzielen; beispielsweise könnte das System, nachdem es 
eine Äußerung vollständig analysiert hat, dem Nutzer Rückmeldung darüber geben, wie es die 
Handlungsanweisungen interpretiert hat, bevor das Programm tatsächlich ausgeführt wird. Ein 
ähnlicher Mechanismus könnte auch für das Erlernen neuer Funktionen eingesetzt werden. 


10.2.3 Alternative Einsatzgebiete 


Neben Verbesserung und weiterführenden Untersuchungen des Systems Prof, bzw. der Architektur 
PARSE, sollte untersucht werden, ob die Architektur (und möglicherweise Teile von Proy_,) auch 
für andere Aufgaben abseits der Endnutzer-Programmierung mit gesprochener Sprache eingesetzt 


werden können. Wie in Kapitel 4 erwähnt, nutzen bereits zwei weitere Projekte die Architektur. 


Beide Projekte betrachten Problemstellungen aus gänzlich unverwandten Forschungsgebieten: 
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10 Fazit und Ausblick 


Das Projekt INDIRECT widmet sich der Generierung von Rückverfolgbarkeitsinformationen 


zwischen Anforderungsdokumenten und Quelltext [Hey19]. Hierzu soll basierend auf PARSE, 


eine semantische Interpretation der Anforderungstexte erzeugt und mit einem semantischen 
Modell von Quelltext, das ebenfalls als PARSE-Graph repräsentiert wird, abgeglichen werden; 
letztlich sollen Verbindungen zwischen beiden Modellen geknüpft und so die Rückverfolgbarkeit 
gewährleistet werden. Das zweite Projekt prüft hingegen die Konsistenz von Modellbeschreibungen 
und zugehörigen konkreten Softwarearchitekturen. Auch hier werden die Beschreibungen mit dem 
PARSE-Ansatz analysiert und die Interpretation mit Architekturbestandteilen verglichen [KK19} 
KSK19]. Beide Projekte basieren nicht nur auf der PARSE-Architektur, sondern verwenden auch 
einzelne Fließbandstufen und Agenten des Systems Pro, wieder. Unter anderem nutzen die 


Projekte die Vorverarbeitungsstufen zur seichten Sprachverarbeitung und zur Erkennung semantischer 
Rollen sowie die Agenten zur Modellierung des sprachlichen Kontextes und zur Korreferenzanalyse 
(teilweise in modifizierter Form). 


Pro, könnte zukünftig außerdem beim interaktiven Lernen Verwendung finden. Unter anderem 
könnte Prof; dazu eingesetzt werden, Systemen ihre Umgebung zu beschreiben. Dies ist nützlich, 
wenn Systeme, die mit ihrer Umgebung interagieren, wie beispielsweise ein Robotersystem, in 
einer neuen Umgebung eingesetzt werden sollen (für die keine Modellierung vorhanden ist). Zum 
Beispiel könnte einem Haushaltsroboter erklärt werden, dass er sich in einer Küche befindet, dass es 
in der Küche Haushaltsgeräte gibt (und welche das sind). Außerdem könnte beschrieben werden, 
wo die jeweiligen Umgebungsobjekte platziert sind. Auf diese Weise könnte schrittweise eine 
Umgebungsontologie befüllt werden. Zur Umsetzung dieser Idee müssten die Sprachanalysen von 
Pro, mit Analyseergebnissen aus anderen Quellen, wie beispielsweise Bild- und Gestenerkennung, 
verknüpft werden. Entsprechende Analyseverfahren für die weiteren Informationsquellen müssten 
zunächst entwickelt werden. Die Verknüpfung multimodaler Informationen wird aber bereits von der 
Architektur PARSE unterstützt; wie in|Abschnitt 4.2.2|diskutiert, wurden Graphen als Datenmodell 
unter anderem aus dem Grund gewählt, dass Informationen aus anderen Quellen einfach eingebunden 


werden können. 


Einen Hinweis auf weitere mögliche Einsatzgebiete liefert auch die bereits in Pro, umgesetzte 
Erzeugung von UML-Aktivitätsdiagrammen. Diese Möglichkeit zeigt, dass mithilfe von Pro, 
die Inhalte natürlichsprachlicher Äußerungen als formale Modelle dargestellt werden können. 
Davon ausgehend ergeben sich zahlreiche Anwendungsmöglichkeiten. Beispielsweise könnte 
Pro, genutzt werden, um automatisch Zusammenfassungen von Besprechungen in Form eines 
semantischen Modells (z. B. einer Ontologie) zu erstellen; Konzepte, die wiederholt von Teilnehmern 
geäußert werden, könnten erkannt und Relationen hergestellt werden. Außerdem könnte ein solches 
Modell durch eine Verknüpfung mit einer Wissensdatenbank mit Weltwissen angereichert werden. 
Dadurch würde eine Art Knowledge Graph zum Thema der Besprechung entstehen. Dieser könnte 
auch über mehrere Besprechungen hinweg erweitert oder mit einem bereits vorhanden Modell 
verknüpft werden. 
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10.3 Abschließende Bemerkungen 


10.3 Abschließende Bemerkungen 


Programmieren für alle! Systeme zur Programmierung mit Alltagssprache haben das Potenzial, 
dieses ambitionierte Ziel eines Tages zu erreichen. In dieser Arbeit konnte gezeigt werden, dass es 
grundsätzlich möglich ist, von Laien umgangssprachlich formulierte Beschreibungen als Programm 
zu interpretieren und Systeme dadurch nicht nur zu steuern, sondern auch deren Funktionsumfang zu 
erweitern. Auf diese Weise könnten zukünftig die unzähligen Endnutzer von Computersystemen dazu 
befähigt werden, zumindest einfache Programme für ihre Smartphones, Laptops oder Tablet-PCs zu 
erstellen. Der in dieser Arbeit verfolgte Ansatz ist nur ein möglicher unter vielen vielversprechenden, 
die derzeit und zukünftig entwickelt werden. Welcher schließlich dazu führt, dass wirklich jeder 
sein persönliches Computersystem programmieren kann, ist unerheblich. Wichtig ist in erster Linie, 
dass die Forschungsgemeinde dieses Ziel auch zukünftig verfolgt, oder - um es mit den Worten von 
Johann Wolfgang von Goethe zu sagen — das Spiel trotz fallender Spielfiguren zu Ende spielt: 


„Es ist mit Meinungen, die man wagt, wie mit Steinen, die man voran im Brette bewegt: 
Sie können geschlagen werden, aber sie haben ein Spiel eingeleitet, das gewonnen 


wird.“ 
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Anhang 


A Etikettensatze 


In den nachfolgenden Abschnitten werden die vollständigen Etikettensätze aufgeführt, wie sie zur 


Erkennung von Wortarten, zur Bestimmung syntaktischer Abschnitte, zur syntaktischen Zerteilung 


und für die Erkennung semantischer Rollen verwendet werden. 


A.1 


Wortarten 


Nachfolgend sind Wortartetiketten, wie in der Penn Treebank definiert, aufgelistet | TMS03]. 


Etikett Bedeutung (englisch) 


Bedeutung (deutsch) 


CC 
CD 
DT 
EX 
FW 
IN 

JJ 
JIR 
JIS 
LS 
MD 
NN 
NNS 
NNP 
NNPS 
PDT 
POS 
PRP 
PRP$ 
RB 


Coordinating conjunction 


Cardinal number 
Determiner 
Existential there 


Foreign word 


Preposition or subordinating conj. 


Adjective, positive 
Adjective, comparative 
Adjective, superlative 
List item marker 
Modal 

Noun, singular or mass 
Noun, plural 

Proper noun, singular 
Proper noun, plural 
Predeterminer 
Possessive ending 
Personal pronoun 
Possessive pronoun 


Adverb, positive 


Nebenordnende Konjunktion 
Kardinalzahl 

Determinativ (Artikel) 

Existenzielles there 

Fremdwort 

Präposition oder unterordnende Konj. 
Adjektiv, Positiv (Grundform) 
Adjektiv, Komparativ 

Adjektiv, Superlativ 
Listeneintragsmarkierung 

Modalverb 

Nomen, Singular oder Kontinuativum 
Nomen, Plural 

Eigenname, Singular 

Eigenname, Plural 

Prädeterminativ 

Possessivendung 

Personalpronomen 
Possesivpronomen 


Adverb, Positiv (Grundform) 
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Etikett Bedeutung (englisch) 


Bedeutung (deutsch) 


RBR 
RBS 
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Adverb, comparative 

Adverb, superlative 

Particle 

Symbol 

infinitival to 

Interjection 

Verb, base form 

Verb, past tense 

Verb, gerund or present participle 
Verb, past participle 

Verb, non-3rd person singular present 
Verb, 3rd person singular present 
Wh-determiner 

Wh-pronoun 

Possessive wh-pronoun 
Wh-adverb 

Pound sing 

Dollar sing 

Sentence-final punctuation 
Comma 

Colon or semi-colon 

Left bracket character 

Right bracket character 

Straight double quote 

Left open single quote 

Left open double quote 

Right close single quote 


Right close double quote 


Adverb, Komparativ 

Adverb, Superlativ 

Partikel 

Symbol 

Infinitivisches to 

Interjektion 

Verb, Grundform 

Verb, Präteritum 

Verb, Gerundium oder Partizip I 
Verb, Partizip II 

Verb, 1. o. 2. Person Singular Präsens 
Verb, 3. Person Singular Präsens 
Wh-Determinativ (Artikel) 
Wh-Pronomen 
Possessiv-Wh-Pronomen 
Wh-Adverb 

Pfund-Zeichen 

Dollar-Zeichen 

Satz-beendendes Satzzeichen 
Komma 

Doppelpunkt oder Semikolon 
Offnendes Klammer-Zeichen 
Schließendes Klammer-Zeichen 
Gerade doppelte Anfiihrungszeichen 
Einfaches öffn. Anführungszeichen 
Doppeltes öffn. Anführungszeichen 
Einfaches schließ. Anführungszeichen 


Doppeltes schließ. Anführungszeichen 


A.2 Chunks 


A.2 Chunks 


Nachfolgend ist der Etikettensatz zur Darstellung syntaktischer Chunks aufgeführt |TBOO]. 


Etikett Bedeutung (englisch) Bedeutung (deutsch) 
ADJP Adjective phrase Adjektivphrase 

ADVP Adverb phrase Adverbialphrase 

CONJP Conjunction phrase Konjunktionsphrase 

INJ Interjection Interjektion 

LST List marker Listenmarkierungszeichen 
NP Noun phrase Nominalphrase 

PP Prepositional phrase Präpositionalphrase 

PRT Particles Partikel 

SBAR Subordinate clause Nebensatz 

UCP Unlike coordinated phrase Ungleichartige nebengeord. Phrase 
UNDEF Undefined Nicht definiert 

VP Verb phrase Verbalphrase 


A.3 Syntaktische Zerteilung 


Nachfolgend ist der Etikettensatz zur Darstellung syntaktischer Kategorien, wie in der Penn Treebank 
definiert, aufgeführt [TMS03]. 


Etikett Bedeutung (englisch) Bedeutung (deutsch) 
ADJP Adjective phrase Adjektivphrase 

ADVP Adverb phrase Adverbialphrase 

NP Noun phrase Nominalphrase 

PP Prepositional phrase Präpositionalphrase 

S Simple declarative clause Einfacher Deklarativsatz 
SBAR Subordinate clause Nebensatz 


SBARQ Direct question introduced by wh-element Direkte Frage, eingeleitet durch ein wh- 
Element 


SINV Declarative sentence with subject-aux inver- Deklarativsatz mit Subjekt-Hilfsverb- 


sion Umkehrung 

SQ Yes/no questions and subconstituent of Ja-Nein-Fragen und Teilkonstituent von 
SBARQ excluding wh-element SBARQ, ausgeschlossen wh-Elemente 

VP Verb phrase Verbalphrase 
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Etikett Bedeutung (englisch) 


Bedeutung (deutsch) 


WHADVP Wh-adverb phrase 
WHNP Wh-noun phrase 
WHPP Wh-prepositional phrase 


Wh-Adverbialphrase 
Wh-Nominalphrase 
Wh-Prapositionalphrase 


X Constituent of unknown or uncertain cate- Konstituent unbekannter oder unklarer Ka- 
gory tegorie 

= “Understood” subject of infinitive or impe- Implizites Subjekt eines Infinitives oder 
rative Imperatives 

0 Zero variant of that in subordinate clauses Nebensatz mit Auslassung von that 

T Trace of wh-Constituent Spur eines wh-Konstituenten 


A.4 Semantische Rollen 


Nachfolgend ist der Etikettensatz zur Repräsentation semantischer Rollen aufgeführt [CM04}|CMOS]. 


Die Etiketten werden in drei Typen unterteilt: eine V-Etikette zur Markierung von (Prädikats-)Verben, 


A*-Etiketten zur Markierung von Phrasen, die von einem Prädikatsverb abhängen (bzw. diesem 


zugeordnet werden), und R*-Etiketten zur Markierung von Referenzen auf Phrasen, die einer der 


A*-Rollen zugeordnet wurden. 


Etikett Bedeutung (englisch) 


Bedeutung (deutsch) 


V verb 


AO agent 

Al 1° patient or theme 

A2 2"d patient or theme 

A3 3" patient or theme 

A4 4!" patient or theme 

A5 5{h patient or theme 
AA further patient or theme 
AM unspecified adjunct 


AM-ADV general-purpose 
AM-CAU cause 

AM-DIR direction 
AM-DIS discourse marker 
AM-EXT extent 

AM-LOC location 
AM-MNR manner 
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Verb (Prädikat) 
Handelnder (Agent) 

1. Patiens oder Thema 

2. Patiens oder Thema 

3. Patiens oder Thema 

4. Patiens oder Thema 

5. Patiens oder Thema 
Weiteres Patiens oder Thema 
unspezifischer Modifikator 
Universalmodifikator 
Ursache (Grund) 

Richtung 

Diskursmarker 

Ausmaß 

Ort 

Art und Weise 


A.4 Semantische Rollen 


Etikett Bedeutung (englisch) Bedeutung (deutsch) 
AM-MOD modal verb Modalverb 

AM-NEG negation marker Negation (Negationsmarker) 
AM-PNC purpose Absicht (Zweck oder Ziel) 
AM-PRD predication Aussage (Überzeugung) 
AM-REC reciprocal Umkehrung 

AM-TMP temporal Zeitausdruck 

R-AO reference to AO Referenz zu AO 

R-Al reference to Al Referenz zu Al 

R-A2 reference to A2 Referenz zu A2 

R-A3 reference to A3 Referenz zu A3 

R-A4 reference to A4 Referenz zu A4 

R-AA reference to AA Referenz zu AA 
R-AM-ADV reference to AM-ADV Referenz zu AM-ADV 
R-AM-CAU reference to AM-CAU Referenz zu AM-CAU 
R-AM-DIR reference to AM-DIR Referenz zu AM-DIR 
R-AM-EXT reference to AM-EXT Referenz zu AM-EXT 
R-AM-LOC reference to AM-LOC Referenz zu AM-LOC 
R-AM-MNR reference to AM-MNR Referenz zu AM-MNR 
R-AM-PNC reference to AM-PNC Referenz zu AM-PNC 
R-AM-TMP reference to AM-TMP Referenz zu AM-TMP 
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B Typen und Attribute des 
initialen Pro,/,-Graphen 


Typ/Attribut Datentyp Beschreibung 
Knoten-Typen 
token (String) Token der Haupthypothese 
alternative token (String) Token alternativer Hypothesen 
Kanten-Typen 
relation (String) Zeiger zum nächsten Token der Sequenz 
alternative token (String) Zeiger einer alternativen Hypothese 
srl (String) Kanten zur Darstellung von semantischen Rollen 
Attribute (Knoten-Typ token) 
position int Position des Tokens innerhalb der Sequenz 
type String Typ des Tokens (Wort, Interpunktion, etc.) 
value String Oberflächenform des Tokens 
pos int Wortart des Tokens 
stem String __Wortstamm des Tokens 
lemma String | Wortlemma des Tokens 
chunkName String Chunk-Zugehörigkeit des Tokens 
successors int Anzahl der Tok. des Chunks, die Tok. vorangehen 
predecessors int Anzahl der Tok. des Chunks, die Tok. nachfolgen 
chunkIOB String Chunk-Zugehörigkeit des Tokens im IOB-Format 
instructionNumber int Instruktionsnummer des Token 
sentenceNumber int Nummer des Satzes zu dem das Token gehört 
ner String Ermittelter Wert der Eigennamenerkennung 
start Time double Startzeit des Tokens im Audiosignal 
endTime double Endzeit des Tokens im Audiosignal 
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B Typen und Attribute des initialen ProNat-Graphen 


Typ/Attribut 


Datentyp Beschreibung 


Attribute (Knoten-Typ token) 


asrConfidence 


alternativesCount 


double 


int 


Konfidenz des ASR für dieses Token 


Anzahl der alternativen Token 


verifiedByDialogAgent boolean Gibt an, ob Werte durch Dialog-Agenten verifiziert 


Attribute (Knoten-Typ alternative_token) 


position 
type 
value 
start Time 
endTime 


asrConfidence 


int 
String 
String 
double 
double 
double 


Position der Alternative innerhalb der Sequenz 
Typ der Alternative (Wort, Interpunktion, etc.) 
Oberflächenform der Alternative 

Startzeit der Alternative im Audiosignal 
Endzeit der Alternative im Audiosignal 


Konfidenz des ASR für diese Alternative 


Attribute (Kanten-Typ relation) 


value 


String 


„NEXT“ (Zeiger auf nächstes Token) 


Attribute (Kanten-Typ alternative_token) 


number int Fortlaufende Nummer der Alternative 
Attribute (Kanten-Typ sr) 

role String Abstrakte A*-Rolle 

roleConfidence double Konfidenz des Erkenners für diese Rolle 

corresponding Verb String _ Zugehöriges Verb (Wurzel der Rollenkombination) 

pbRole String Zugehörige PropBank-Rolle 

propBankRolesetID String ID des PropBank-Rollensatzes 

propBankRolesetDescr String Beschreibung des PropBank-Rollensatzes 

vnRole String Zugehörige VerbNet-Rolle 

verbNetFrames String _ Zugehöriger VerbNet-Rahmen 

fnRole String Zugehörige FrameNet-Rolle 

frameNetFrames String _ Zugehöriger FrameNet-Rahmen 

eventTypes String Typ des FrameNet-Events (statisch, dynamisch) 
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C Studienbögen 


In den nachfolgenden Abschnitten sind die Studienbögen aufgeführt, wie sie für die stationäre und 
die Online-Datensammlung sowie für die Studien zur Evalution des Agenten zur Modellierung und 
Etikettierung von Diskurs-Themen und zur Evaluation des Gesamtsystems verwendet wurden. 


C.1 Stationäre Datensammlung 


C.1.1 Einführung (General Information) 


This survey is part of a research project of the Karlsruhe Institute of Technology. The aim of this 
project is programming a humanoid robot with natural spoken language. Within the project we try 
to extract instructions, objects and locations from natural language descriptions to teach a robot 
new skills. During this study you are kindly requested to fill out a questionnaire and formulate 
instructions for a robot. Your instructions will be recorded via microphone. The recordings and your 
personal information will only be used for research purposes and handled anonymously. 

The results of this research study may be presented at scientific or professional meetings or published 
in scientific journals. 

All provided information and audiotaped content are kept anonymous. All personal data will be 
shared and stored using a pseudonym. This pseudonym is assigned randomly and is not related to 
any personal information. 


Before you read this entire form and decide to participate in this project, please understand 
your participation is voluntary and you have the right to withdraw your consent or discontinue 
participation at any time without penalty or loss of benefits to which you are otherwise entit- 
led. The alternative is not to participate. You have the right to refuse to answer particular questions. 


If you have any questions, concerns or complaints about this research, its procedures, risks 
and benefits, contact the supervisor of the study: 


Sebastian Weigelt 


+49 721 608-44064 
weigelt@kit.edu 
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C.1.2 Einverständniserklärung (Declaration of Consent) 


I, the undersigned, confirm that (please tick box as appropriate): 


1. I have read and understood the information about the study, as provided in the previous 


pages. 
2. I received the opportunity to ask questions about the study and my participation. 
3. I voluntarily agree to participate in the study. 


4. I understand, that Ican withdraw at any time without giving reasons and that I will not be 
penalized for withdrawing nor will Ibe questioned on why I have withdrawn. 


5. The procedures regarding confidentiality have been clearly explained (e.g. use of names, 
pseudonyms, anonymization of data, etc.) to me. 


6. I give consent to be audiotaped during this study. 


7. The use of the data in research, publications, sharing, and archiving has been explained to 
me. 


8. I understand that other researchers will have access to this data only if they agree to preserve 
the confidentiality of the data and if they agree to the terms I have specified in this form. 


9. I, along with the Researcher, agree to sign and date this informed consent form. 


Participant: 
Name of Participant Signature Date 
Researcher: 
Name of Researcher Signature Date 
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C.1.3 Einführung (Introduction) 


Thank you for taking part in the KOPRO survey. During the survey you are kindly requested to 
formulate instructions for a robot. Your instruction will be recorded via a microphone, but only 
used for research purposes and handled anonymously. This survey is part of a research project 
(KOPRO) of the Karlsruhe Institute of Technology aiming to program a humanoid robot via spoken 
natural language. Within the project we try to extract instructions, objects and locations from natural 
language descriptions to teach a robot new skills. 


A first step to accomplish this goal a set of descriptions formulated by native English spea- 
kers. This description set allows us to identify varieties in human expressions. 


Your task within the survey is to instruct a robot using natural language (and spontaneous 
expressions). At the following pages different situation will be presented to you. In each of that 
situations a robot has to fulfil a certain task for you, like getting a cup from a desk and bring it to 
you. Unfortunately the robot is not familiar with the tasks, but it has a large set of basic skills, like 
going somewhere, locating something and grabbing something. Based on the basic skills you can 
instruct the robot and as a consequence teach it a new skill. For example: If you want the robot to 
serve you coffee, you might say, that it should go to the table (with the coffee machine), fill water 


into the tank, get a filter from cupboard and so on. 


To avoid any influence we do not inform you about the basic skills. You will have to decide 
for your own, which instructions the robot needs to fulfil the task. While giving your instruction try 
to act as naturally as possible using your own way of formulating. Therefore instead of interacting 
with a technical device — what the robot actually is - try to imagine you are talking to real person 


and formulate your instruction accordingly. 


Example description for the complex task of bringing a water bottle: 


e Go to the kitchen table. 
e Look for the water bottle and take it. 


¢ Come over here and hand it over. 
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C.1.4 Fragebogen (Questionnaire) 


1. Age: 


2. Gender: 


male 
female 


3. Nationality: 


4. Have you ever lived in an English speaking country: 


Yes 
< 6 months 
6 months - | year 
> 1 year 

No 


5. Occupation: 


6. Mother tongue (native language): 


English 
German 
other (please quote): 


7. English experience level: 


elementary 
advanced 
experienced 
proficient 
native speaker 


8. Programming experience level: 


none 
elementary 
advanced 
experienced 
proficient 


9. Programming skills: 


functional programming(e.g. Haskel, Lisp, .. . ) 
procedural/imperative programming (e.g. C, Pascal, .. . ) 
objected-oriented programming (e.g. Java, C++, ...) 


Date and time*: 


*are used to generate anonymous user id. 
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C.1.5 Szenario (Scenario) 


All scenes take place in a kitchen (3D animation in Figure |C.1). While expressing your instructions 


to the robot (Figure C.2a), imagine you are standing in one end of the kitchen looking into the 


room (Figure |C.2b). Somewhere in front of you is the robot awaiting your orders. Your view on the 


scenery, the position of the robot and relevant objects and locations are displayed in a set of pictures. 
You do not have to describe any kind of object. Assume that the robot knows what “an orange juice” 
or a “fridge” is. 


Figure C.1: Kitchen: 3D-Model 


(a) ARMAR-III robot (b) kitchen (subject view) 


Figure C.2: Scenery (set-up) 


Es folgen die jeweiligen Beschreibungen der konkreten Szenarien, wie in Abbildung 5.4/in 
Abschnitt 5.5.2.1] gezeigt. Von diesem Schema weit lediglich das achte Szenario ab. Dieses 


dient zur Generierung von Mitschnitten eines freien Dialogs, wie nachfolgend beschrieben. 
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C.1.6 Szenariobeschreibung Szenario 8: Freier Dialog 


You have bought the new household robot Armar IH. At the moment it is just able to fulfill basic 
tasks. The good news is the robot is able to learn more sophisticated tasks. Therefor you have to 
explain him a bunch of basic tasks in the correct order. In the case Armar understood everything it 
has learned a new skill. Otherwise the robot will ask you about the parts of your statement it did not 
understand. Since Armar is able to understand context, there might come up questions about the 
context and conditions in the text. 


At the moment you are sitting in front of a laptop and have to do very interesting stuff. So you 
want to teach Armar to take out the laundry of the washing machine and put it into the dryer. 


The robot is already aware that you will teach him a new instruction. So it will be fine if your 
statement just contains the instruction. 


Some basic task examples: 


e Go to the cupboard and open it. 
e Armar cut the orange into halves. 


e Take the water bottle and bring it to me. 


(a) Armar, the robot (b) closed washing machine 


Advices: 


e Imagine the essential steps you would do putting the laundry into the dryer after the washing 
machine has finished. 


e Say or imagine the complete instruction at least once before you start the record. 


e The robot will ask you a lot of questions. Please be patient and keep calm. 


Thank you for participating. 
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C.2 Online-Datensammlung 


C.2.1 Einführung auf der Plattform Prolific 


Teach a robot new skills with natural language instructions 
The study investigates how people would teach robots new skills with natural language. You have to 


provide 4 instructions. You will need your ProfilicID, please copy it in advance. 


Please participate only once! 


C.2.2 Web-Formular 


Das für die Online-Datensammlung verwendete Web-Formular kann unter folgender URL 


abgerufen werden: 
https: //docs.google.com/forms/d/e/1FAIpQLSfSaH£flNtYN5mYwgeYka7PMxXchEc- 
wOa-dgivgjibaPLFVAA/viewform 


Teach a robot new skills 


Please enter your ProfilicID 


ProlificIDs have 24 alphanumeric characters. 


Setting 


Target system: Humanoid household robot (called Armar) 
Setting: Kitchen 
Goal: Teach the robot new skills 


Your task: 4 natural language instructionsfor the robot to learn a specific skill 


Es folgen zwei Abbildungen, die ARMAR-III in der Küchenumgebung zeigen. 


Es folgt ein Beispielszenario, wie in Abbildung 5.8|in|Abschnitt 5.5.3.1)gezeigt. 
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Important 


Skill 1 


Es folgen weitere Szenarien in denen eine neue Fähigkeit gelehrt werden soll. 


English native speaker? 
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Skills in programming? 


O Yes 


O No 


C.3 Evaluation des Agenten zur Modellierung und 
Etikettierung von Diskurs-Themen 


Die fiir die Evaluation des Agenten zur Modellierung und Etikettierung von Diskurs-Themen 
verwendete Web-Formulare, können unter folgenden URLs abgerufen werden: 
https://docs.google.com/forms/d/e/1FAIpQLSf0Ak4jWm1bIYOYq7vFRrfW7x- 
qB8_DBX8DfacI_4Bpu2j7tg/viewform 

https: //docs.google.com/forms/d/e/1FAIpQLSf6djsFDOEKY7yUT2hSX62MEFK 
25Abj9R_a2EDYBCcWkH2d8Q/viewform 


Themenextraktion 


Im Folgenden werden elf verschiedene Texte aufgefiihrt, zu denen (mit verschiedenen 
Methoden) jeweils verschiedene Themen zugeordnet wurden. Texte sowie Themen sind in 
englischer Sprache. Die Texte stammen aus verschiedenen Szenarien zur Programmierung 
mit natürlicher Sprache, in der einem System neue Befehle bzw. Abfolgen mit Hilfe von 
Erklärungen beigebracht werden sollen. 

Ihre Aufgabe ist die Bewertung der Themen zu den jeweiligen Texten. Dafür finden Sie 
einen Text mit verschiedenen Themenvorschlägen. Das Thema sollen Sie nacheinander 
daraufhin bewerten, ob das Thema passend, unpassend oder komplett unpassend ist, da es 
Ihrer Meinung nach zu einem anderen Themengebiet gehört. Dabei ist ein Thema passend, 


wenn es einen Teil oder den ganzen Text und seinen Inhalt beschreibt. Zum Beispiel wäre 


im Satz “Put the frying pan into the dishwasher” die Themen “kitchen” oder “kitchen 
utensil” passend. Das Thema “pan” könnte eher unpassend sein, da es zu spezifisch ist. 
Ebenso könnte das Thema “machine” eher unpassend sein, da es zu allgemein ist. Zuletzt 
könnte das Thema “iron mining” unpassend sein, da es (größtenteils) unverwandt mit 
der eigentlichen Thematik ist. Bei den ersten beiden Optionen kann im Anschluss Ihre 
Entscheidung mit verschiedenen Antwortmöglichkeiten näher erläutert werden (u.a. Thema 
war zu spezifisch oder zu allgemein). Beispielsweise kann zu einem Thema nach der 
Entscheidung tinpassendérklart werden, dass das Thema zu allgemein oder zu spezifisch war. 
Bei Unsicherheiten zu den einzelnen Themen und ihren Bedeutungen, schlagen Sie bitte 
im Wörterbuch nach und informieren sich mit Hilfe der Wikipedia darüber, um Missver- 
ständnisse zu vermeiden. So ist unter anderem eine “Lazy Susan” nicht nur eine faule 
Person mit dem Namen Susan, sondern auch die Bezeichnung für einen Drehtisch (siehe 
https://en.wikipedia.org/wiki/Lazy_Susan). 
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Text 1, Thema 1 


Je nach getroffener Auswahl, wird der Proband zu einem anderen Formularfeld weitergeleitet. 


Text 1, passendes Thema 1 


Text 1, unpassendes Thema 1 


Text 1, Thema 2 
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Das Thema “Furniture” ist 


© Passend 


© Unpassend 


© Unpassend, da komplett unverwandt 


Es folgen dieselben Auswahlmöglichkeiten wie zuvor und dann die weiteren Themen, die 
für den Text erzeugt wurden. Anschließend folgen die weiteren zu bewertenden Texte und 
Themen. 


Hinweis 


Die Studie wurde mithilfe der hier gezeigten Auswahlméglichkeiten durchgeführt. In der 
Auswertung wurden jedoch die zweistufigen Bewertungen in einfachere nicht hierarchische 
Kategorien überführt, wie in beschrieben. Auf diese Weise können die 
Ergebnisse besser dargestellt und es können mehr Übereinstimmungen zwischen den 
Probanden gefunden werden. 


C.4 Evaluation des Gesamtsystems: Online-Studie 


C.4.1 Einführung auf der Plattform Prolific 


Compare english commands for a robot with activity diagrams 


The study evaluates the similarity between commands given in English and computer generated 
activity diagrams. 


The study begins with an Introduction to activity diagrams. After the introduction, you have to 
compare English command sequences with activity diagrams. If you identify differences between 
the commands and the activity diagram you check the appropriate boxes. 


There will be 10 activity diagrams. Each diagram may differ in size and complexity. 


You will need your ProlificID! Please copy the ID in advance. Please participate only once for the 
same study. However, you are welcome to participate in the other studies of the series. 


C.4.2 Web-Formular 


Eines der 24 Web-Formulare, die für die Online-Studie verwendet wurden, kann unter 


folgender URL abgerufen werden: https ://forms.gle/dQSWiVB9d85tdR1s6 
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Comparing Activity Diagrams to Commands 


Introduction to activity diagrams 


Example 
go to the fridge open it if it is closed searched the orange juice and grab it pull it out of the fridge and close the door } 


go to the fridge 


open it(opened) 


searched the orange juice 


and grab it(orange juice) 


pull it(it) out of the fridge 


and close the door 


Sentence 
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Activities 

An activity consists of a single action, command or condition. It is represented with a 
light yellow node. If a node contains activities that don’t make sense, lack information 
or contain information which should be part of another node, then check the “Activity 
incorrect/incomprehensible” box. It is also possible that an activity is missing or that another 
activity should be split up. In that case check the “Activity missing” box. If one of the nodes 
should be removed, check the “Activity should be removed” box. Activities are connected by 
arrows. Arrows point to the next activity. If the sequence of activities is incorrect (i.e. an 
activity should be placed before another) check the “Activity sequence incorrect” box. Some 
Activities contain words in round brackets after pronouns like it/her/she. These refer to an 
entity. If they refer to the wrong entity check the “Reference to wrong entity” box. 


Es folgt ein Diagramm, dass eine bedingte Verzweigung und eine Zählschleife enthält. 


Conditions, Branches and Loops 


In some cases a course of activities represents a conditional sequence. In such cases there 
may be multiple next activities and thus the path is split. Depending on the evaluation of the 
condition one of the next paths is chosen. Conditions are usually part of a loop or branch. 
Branches split the sequence in two separate paths. Only one path can be followed. Branches 
may contain multiple types of errors, such as missing or additional activities. It is also 
possible that a path doesn’t contain activities at all. In these cases check the “Branches 
incorrect’ box. In a loop one of the paths will be repeatedly followed until the condition is 
met to exit it. A special type of loop is a for-loop. Here the looping path will be followed for 
a number of times and then exited. If there are errors in any loop, check the “Loop incorrect’ 
box. 


Es folgt ein beispielhaftes Diagramm, dass zwei nebenläufige Abschnitte enthält. 


Concurrency 


Concurrency bars splits the path in a special way. Instead of following a single path, all paths 
are followed at the same time. Thus the activities in concurrency are done at the same time. 


The concurrency ends when all paths in the concurrency reach the ending bars. From now 


on, only a single path is followed. 


No errors and other errors 


Not all activity diagrams contain errors. It’s possible that the diagram is entirely correct. In 
this case check “everything correct” only. In some cases you may identify errors that do not 
fit in one of the above categories. In cases, you may pick the “others” check box and describe 
the error textually. 
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Please enter your ProfilicID 


Activity diagrams: 


s09_088.txt.png 


hey armar go to the table 
and pick up the green cup 
then go to the sink 


and wash the cup 
while you(armar) are washing read me(SPEAKER) the news 


s09_088.txt.png 


Es folgen die weiteren, zu bewertenden Aktivitätsdiagramme. 
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Nachfolgend werden Datensätze aufgeführt, die für Evaluationen verschiedener Agenten verwendet 


wurden und von den in Abschnitt 5.5/beschriebenen Datensammlungen abweichen. 


D.1 Evaluation des Agenten zur Modellierung und 
Etikettierung von Diskurs-Themen 


Im Folgenden sind die Transkription zu verschiedenen Szenarien aufgeführt, die für die Evaluation 
der Modellierung und Etikettierung von Diskurs-Themen anhand einer Studie genutzt wurden (siehe 
[Abschnitt 7.3.2). In die Transkriptionen wurden Satzzeichen injiziert, um den Studienteilnehmern 
das Textverständnis zu erleichtern. Die Bezeichner der Aufzählungselemente bestehen aus 


e einem Suffix, das angibt, ob es sich bei dem Text, um eine Transkription der stationären 


Datensammlung handelt (ProNat) oder um einen synthetisch erzeugten (Extra), 
e einer ersten Ziffer, die das Szenario angibt und 


e einer zweiten Ziffer, die angibt, in welcher der beiden Umfragen der Text verwendet wurde. 


Datensatz 


ProNat_1.1 Okay Armar, go to the table, grab popcorn, come to me, give me the popcorn, which 
is in your hand 


ProNat_1.2 Armar, can you please bring me the popcorn bag 


ProNat_2.1 hello Armar, could you go to the table and take the green cup? Please put it in the 
dishwasher and close it 


ProNat_2.2 hey Armar, please place the green cup from the kitchen table into the dishwasher 


ProNat_3.1 Armar, would you please go to the fridge and open it, take out the orange juice and 
bring it to me? 


ProNat_3.1 Armar, open the fridge and take the orange juice. Afterwards close the fridge and 


bring me the orange juice. 


ProNat_4.1 hey Armar, could you please have a look at these dishes? If they are dirty put them 
into the dishwasher. If they are not dirty, put them into the cupboard 
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ProNat_4.2 robo, go to the table. If there are any dirty dishes, grab the dirty dishes and go to 
the dishwasher, open the dishwasher, and put the dirty dishes into the dishwasher. Close the 
dishwasher and return to the table. If there are any clean dishes, grab the clean dishes and go 
to the cupboard. Open the cupboard and put the clean dishes into the cupboard 


ProNat_5.1 hello Armar, I want to make some drinks. Go to the fridge and if there fresh oranges, 
bring me the fresh oranges together with vodka. Otherwise bring me just orange juice and the 
vodka 


ProNat_5.2 hello Armar, I would want to have some vodka with fresh orange, please. Go to the 
fridge and check if there are some fresh orange. If there are not any, please make me a vodka 


with orange juice 


ProNat_6.1 Go to the table, take the green cup standing on the table, and go to the fridge. Open 
the fridge. Right in front of you there is a water bottle, take the bottle, open it, fill water in 
the cup, and put the bottle back in the fridge. Close the fridge and then bring me the cup. 
Afterwards go to the dishwasher, open the dishwasher, take two red cups em from inside, 
bring them to the cupboard, and open the cupboard. Put the cups on the shelf and close the 


cupboard again 


ProNat_6.2 Go to the fridge, open the fridge door, then take the water bottle out. Close the fridge 
door, then go to the table and open the water bottle. Fill the green cup with the water and then 
bring the cup to me. Go to the dishwasher, ahm take the two red cups out of the dishwasher, 
and put them on the cupboard 


ProNat_7.1 Hey Armar, I’m hungry. Please, take eh a plate from the dishwasher and rinse it with 
water at the sink. Afterwards, go to the fridge, open the fridge, and put the instant food you 
find into in there on to the plate. Close the fridge and warm the plate in the eh microwave. 
Therefore you have to open the door first. Afterwards, when it’s warm, please, bring it eh to 


me at the table 


ProNat_7.2 Go to the dishwasher and take one plate out. Wash this plate and then go to the 
fridge, put the em meal instant meal on the plate and bring it to the microwave. Put it into the 
microwave. Then, after it is warmed up, put the ehm meal on the plate and bring the plate to 
the table 


ProNat_8.1 Go to the washing machine and open it. Take out the laundry, put the laundry into the 
dryer, start the dryer 


ProNat_8.2 Go to the dryer. Open the dryer. Go to the front side of the washing machine. Grab the 
washing machine window handle. Put the handle to open the washing machine. Put your arms 
into the washing machine. Grab the laundry. Take the laundry out of the washing machine. Go 
to the dryer. Put the laundry into the dryer. Close the dryer. Push the start button of the dryer 


Extra_1.1 Start and accelerate as fast as possible until you fly through the gate. Then slow down 
and turn left by sixty degree. Accelerate again and dodge the table by ascending first and 
descending afterwards. Fly through the greenhouse, then turn left and fly above the pond. If 
you crossed the pond, break and descend down to the lawn and finally turn off 
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Extra_1.2 Ascend and fly as fast as possible to the gate, turn left and ascend and start flying to the 
greenhouse. After you dodged the table by ascending, descend again. After passing through 
the greenhouse, turn left again and fly over the pond. Afterwards slow down and descend 


until you are on the lawn 


Extra_2.1 Follow the line on the carpet. At the end of the carpet turn until you see the rattle. Grab 
the rattle and afterwards release it again 


Extra_2.2 Move along the line until you are at the end of the carpet. Turn right until you see the 
rattle, grab it and then release it again 


Extra_3.1 Alexa, turn up the temperature of the radiator by two degrees, then start playing my 
favorite playlist 


Extra_3.2 Alexa, before you play my favorite playlist, turn on the radiator, because it is getting 
cold in here 
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D.2 Evaluation des Agenten zur automatischen 
Auswahl von Zielsystem- und 
Umgebungsontologien 


Im Folgenden sind die zusätzlichen Texte zu finden, die für die Evaluation des Agenten zur 
automatischen Auswahl von Zielsystem- und Umgebungsontologien genutzt wurden. Neben den 
hier aufgeführten Texten, wurden auch die Beschreibungen aus der Evaluation des Agenten zur 
Modellierung und Etikettierung von Diskurs-Themen verwendet (siehe[Abschnitt D.1). Daher wird 
die dort begonnene Nummerierung hier fortgeführt. 


Extra_4.1 hey armar grab the lawn mower and use it to cut the grass 
Extra_4.2 hey armar open the shed grab the mower and cut the lawn 


Extra_5.1 Go to the Fridge take the tonic water and mix it in the glass with the gin that is on the 
counter 


Extra_5.2 Mix a cuba libre by putting coke rum and some lime juice in a glass 
Extra_6.1 go to the closet open it and grab the sweater and the trousers and bring them to me 


Extra_6.2 move to the desk and clean it afterwards go the the nightstand and clean it as well if you 
finished these tasks take the book out of the shelf and bring it to me 


Extra_7.1 alexa please play my metal playlist in a random order 
Extra_7.2 alexa what are the most famous songwriters who use a piano 


Extra_8.1 hey armar, Louis Armstrong is a really good artist, he plays the trumpet so well. turn 
up the volume. Then walk to the fridge and bring us two beers, afterwards get us each one 
whisky so we can honor him 


Extra_8.2 armar, i think it is perfect to combine jazz with a nice glass of whisky. So please bring 
us our drinks 


Extra_9.1 go to the fridge and grab the ketchup and the water and bring it outside to our patio 
table at the pond. be careful not to walk over the freshly sewn lawn 
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AGENTENBASIERTE 


ARCHITEKTUR FÜR 


PROGRAMMIERUNG 
MIT GESPROCHENER SPRACHE 


Es kommt ganz, ganz selten vor, dass man etwas Neues entdeckt, ohne dass man explizit danach sucht. Das Neue fallt einem 
gewissermaßen in den Schoß, als unerwartetes Nebenprodukt oder als Geistesblitz. So war es mit dieser Arbeit. Sebastian 
Weigelt hatte sich vorgenommen, das Programmieren in Umgangssprache zu verbessern. Sein Ziel war, Rechner, Roboter, ja 
beliebige digitale Geräte in normaler Sprache instruieren zu können, ohne erst eine Programmiersprache erlernen zu müssen. 
Siri und Alexa geben einen Vorgeschmack darauf: Man kann mit ihnen einzelne Befehle in Umgangssprache abgeben, aber 
Folgen von Befehlen, also ganze Programme mit Fallunterscheidungen und Wiederholungen, beherrschen diese Helferlein nicht. 


Naturgemäß nimmt das angestrebte Ziel den Hauptteil der Arbeit ein. Herr Weigelt schlägt eine Agentenarchitektur vor, wobei 
die einzelnen Software-Agenten Teilaufgaben dessen klären, was der menschliche Sprecher gemeint haben könnte. Es ist näm- 
lich mitnichten einfach, den Variationsreichtum und die Mehrdeutigkeit natürlicher Sprache zu beherrschen. Einer der Agenten 
erledigt z. B. die Korreferenzanalyse. In der Anweisung „Geh zum Kühlschrank, hol’ einen Apfel heraus und bring ihn mir" muss 
z. B. geklärt werden, dass das Pronomen „ihn“ nicht den Kühlschrank meint. Ein anderer Agent erkennt Ablaufstrukturen, wie z. B. 
„stelle alle Teller auf dem Tisch in die Spülmaschine.‘ Hier muss das Wort „alle“ in eine programmtechnische Schleife abgebildet 
werden, aber nur für die Teller, die auf dem Tisch liegen (und nicht die im Schrank). Es gibt etwa ein Dutzend Agenten; für neue 
Erkennungsaufgaben können ohne Weiteres neue hinzugefügt werden. Derzeit versteht Weigelts Agentenarchitektur nur Englisch. 


Kommen wir nun zu dem unerwarteten Neuen: Mit einem einzigen Zusatzagenten verwirklicht Weigelts Software eine neue Form 
maschinellen Lernens, nämlich das Lernen aus Unterweisung. Die derzeit übliche Form des maschinellen Lernens erfordert 
Tausende, ja Zehntausende von Beispielen. Diese Beispiele müssen oft erst erzeugt werden, wie z. B. Fahrten beim autonomen 
Fahren. Lernen aus Beispielen ist mühsam und erfordert zum Teil einen gewaltigen Energieaufwand. Noch dazu weiß man 
nicht, was der Rechner nun wirklich gelernt hat und ob er Grenzfälle richtig behandeln würde. Was wäre, wenn wir stattdessen 
einem Roboter einfach sagen könnten, wie man gewisse Dinge tut und der Roboter daraus ein Programm erzeugt, das man 
später wieder aufrufen kann? Das könnte so gehen: "To make coffee, get a cup from the shelf, place it under the spigot of the 
coffee machine and press the red button”. Weigelts Lernagent wird durch die Phrase “to make” aufgeweckt, denn es handelt 
sich hierbei offenbar um eine Unterweisung. Der Lernagent bildet nun mithilfe der anderen Agenten ein Programm, speichert 
es ab, aber so, dass es auf vielfältige Weise aktiviert werden kann. Der Nutzer des Roboters könnte nun z. B. sagen "make me 
some coffee” oder auch “I'd like a cup of coffee”. Lernen durch Unterweisung kommt komplett ohne Daten aus. Es gibt auch 
keine Unsicherheit, was gelernt wurde, denn man kann das erzeugte Programm inspizieren, wenn man will. 
Die Bedeutung des Lernens aus Unterweisung ist kaum zu unterschätzen. Man denke nur, wie wir Menschen lernen: seit spätestens 
der Grundschule lernen wir fast ausschließlich durch Unterweisung! Es ist auf diesem Gebiet noch viel zu tun, aber man stelle 
sich vor, ein Rechner könnte lernen, in dem er eine Bibliothek durchliest! Dann hätten wir ein Universalgenie erzeugt. Diese Arbeit 
eröffnet die ersten Schritte auf diesem Weg. Wir werden sicher noch mehr dazu brauchen als nur die Programmierfähigkeit. 


Das Uberraschende an Weigelts Arbeit ist, dass sie zunächst „nur“ das Programmieren in natürlicher Sprache verbessern sollte. 
Herr Weigelt und ich als sein Doktorvater aber sahen plötzlich, dass diese Fähigkeit der Schlüssel zum Lernen aus Unterweisung 
ist, zumindest was Abläufe betrifft. Der Sprung vom Programmieren zum Lernverfahren war der Geistesblitz, der nicht offen- 
sichtlich war. Ein solch weitreichendes Heureka ist mir in meinen 45 Jahren als Forscher noch nicht vorgekommen! 


Prof. Dr. Walter F. Tichy 
Karlsruher Institut für Technologie 
im Oktober 2021 
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